Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information

par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 1. LES SYSTÈMES DE QUESTIONS-RÉPONSES

Nous remarquons que les systèmes du domaine fermése basant sur une source de données sociales permettent de fournir un moyen pour répondre à plusieurs types de questions (Aardvark, Yahoo! Answers). Nous remarquons aussi qu'aucun des systèmes de domaine fermécités ne se base sur le web pour la recherche des réponses, et ceci pour que l'information soit correcte, exacte et venant d'une source de données fiable.

1.4 Les jeux de données disponibles

Nombreux sont les jeux de données destinés au développement des systèmes QA. Par conséquent, dans le tableau 1.2 nous présentons ceux fréquemment utilisés pour le développement et l'évaluation des QAS.

Nom du Dataset	Source des questions	Taille du dataset
SQuAD [Rajpurkar et al., 2016]	Production participative¹ (crowdsourced)	100.000 questions avec réponses + 50.000 questions sans réponses
CNN/DailyMail [Chen et al., 2016]	Génération automatique des questions (Query logs)	879.000 questions
WikiQA [Yang et al., 2015]	Historique des requêtes des utilisateurs	3047 questions
TREC-QA [Voorhees and Tice, 2000]	Historique des requêtes des utilisateurs (Query logs)	1479 questions
MCTest [Richardson et al., 2013]	Production participative	2640 questions

TABLE 1.2: Les différents jeux de données disponibles.

Les performances de la lecture automatique, en particulier, ont étéconsidérablement améliorées ces dernières années avec l'introduction des ensembles de données de compréhension de la lecture à grande échelle tels que CNN / DailyMail et SQuAD. Les systèmes utilisant ces ensembles de données se concentrent uniquement sur l'étape d'extraction des réponses, en supposant en fait que le passage pertinent du texte est déjàconnu. WikiQA a étéintroduit comme un ensemble de données qui utilise les journaux de requêtes Bing comme source de questions. Il est utiliséprincipalement dans les systèmes qui répondent aux questions factuelles. Les réponses candidates ont étéextraites à partir de la section de résumédes articles de Wikipédia. TREC est un ensemble de données pour la classification des questions consistant en des questions ouvertes, basées sur des faits et divisées en grandes catégories sémantiques. MCTest est un ensemble d'histoires et de questions associées librement disponibles destinées à la recherche sur la compréhension automatique des textes. Cet ensemble de données exige des machines qu'elles répondent à des questions à choix multiples sur la compréhension de la lecture d'histoires fictives, s'attaquant ainsi directement à l'objectif de haut niveau de la compréhension machine en domaine ouvert.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Nous devons apprendre à vivre ensemble comme des frères sinon nous allons mourir tous ensemble comme des idiots" Martin Luther King