WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information


par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master  2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 1. LES SYSTÈMES DE QUESTIONS-RÉPONSES

Nous remarquons que les systèmes du domaine fermése basant sur une source de données sociales permettent de fournir un moyen pour répondre à plusieurs types de questions (Aardvark, Yahoo! Answers). Nous remarquons aussi qu'aucun des systèmes de domaine fermécités ne se base sur le web pour la recherche des réponses, et ceci pour que l'information soit correcte, exacte et venant d'une source de données fiable.

1.4 Les jeux de données disponibles

Nombreux sont les jeux de données destinés au développement des systèmes QA. Par conséquent, dans le tableau 1.2 nous présentons ceux fréquemment utilisés pour le développement et l'évaluation des QAS.

Nom du Dataset

Source des questions

Taille du dataset

SQuAD

[Rajpurkar et al., 2016]

Production participative1
(crowdsourced)

100.000 questions avec réponses
+ 50.000 questions sans réponses

CNN/DailyMail
[Chen et al., 2016]

Génération automatique
des questions (Query logs)

879.000 questions

WikiQA

[Yang et al., 2015]

Historique des requêtes des
utilisateurs

3047 questions

TREC-QA

[Voorhees and Tice, 2000]

Historique des requêtes
des utilisateurs (Query logs)

1479 questions

MCTest

[Richardson et al., 2013]

Production participative

2640 questions

TABLE 1.2: Les différents jeux de données disponibles.

Les performances de la lecture automatique, en particulier, ont étéconsidérablement améliorées ces dernières années avec l'introduction des ensembles de données de compréhension de la lecture à grande échelle tels que CNN / DailyMail et SQuAD. Les systèmes utilisant ces ensembles de données se concentrent uniquement sur l'étape d'extraction des réponses, en supposant en fait que le passage pertinent du texte est déjàconnu. WikiQA a étéintroduit comme un ensemble de données qui utilise les journaux de requêtes Bing comme source de questions. Il est utiliséprincipalement dans les systèmes qui répondent aux questions factuelles. Les réponses candidates ont étéextraites à partir de la section de résumédes articles de Wikipédia. TREC est un ensemble de données pour la classification des questions consistant en des questions ouvertes, basées sur des faits et divisées en grandes catégories sémantiques. MCTest est un ensemble d'histoires et de questions associées librement disponibles destinées à la recherche sur la compréhension automatique des textes. Cet ensemble de données exige des machines qu'elles répondent à des questions à choix multiples sur la compréhension de la lecture d'histoires fictives, s'attaquant ainsi directement à l'objectif de haut niveau de la compréhension machine en domaine ouvert.

11

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire