WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Youtaqa : système de questions-réponses intelligent basé sur le deep learning et la recherche d’information


par Rayane Younes & Asma AGABI & TIDAFI
Université d'Alger 1 Benyoucef BENKHEDDA - Master  2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONCEPTION ET IMPLÉMENTATION DE YOUTAQA

il doit extraire les réponses de ces passages. De plus, dans SQuAD, les mots des questions sont souvent des synonymes de mots dans le passage, il s'agit d'une variation lexicale en raison de la synonymie.

Pour avoir une vision plus claire sur la structure de SQuAD, nous présentons ci-dessous un exemple d'une question extraite du jeu de données:

»question»: »When did Beyonce start becoming popular?»,

»id» : »56be85543aeaaa14008c9063»,

»answer»: »in the late 1990s»,

»answer start»: 269,

»is impossible» : false,

»context»: »Beyonce Giselle Knowles-Carter is an American singer, songwriter, record producer

and actress. Born and raised in Houston, Texas, she performed in various singing and dancing com-

petitions as a child, and rose to fame in the late 1990s».

L'exemple ci-dessus est un exemple d'une question sur SQuAD à partir d'un passage «context» d'un article de Wikipédia. Comme nous pouvons le voir, chaque question est identifiée par un «id». De plus, nous avons une variable booléenne «is impossible» qui permet de préciser si le passage contient une réponse à la question ou non. Dans le cas oùle passage contient une réponse à la question, la variable «answer start» indique l'index du début de la réponse dans le champs «context».

3.3.2 Wikipedia

Puisque les questions proposées dans le jeu de données SQUAD sont basées sur des articles de Wikipedia, en vue d'établir un moteur de recherche, nous avons utiliséWikipédia comme base de documents. Cette dernière offre l'intégralitéde ses articles en plusieurs langues, parmi elles l'anglais. Wikipedia est disponible en ligne gratuitement en format XML1 et comprend plus de 6.1 millions d'articles [Wik, 2020].

Comme nous pouvons le voir dans la Figure 3.2, notre base de documents a une structure XML qui permet de pourvoir des informations telles que le titre de l'article, la date de création, l'identifiant unique de l'article et le plus important qui est le contenu de l'article fractionnéen sections.

3.4 Moteur de recherche MRI

Un moteur de recherche est un programme basésur la recherche d'information et qui collecte et organise un ensemble de documents afin de faciliter la quête d'un ou plusieurs documents. De base, les utilisateurs saisissent une requête sur ce qu'elles aimeraient trouver et le moteur fournit le contenu qui correspond à ce

1. https://dumps.wikimedia.org/enwiki/latest/

28

CHAPITRE 3. CONCEPTION ET IMPLÉMENTATION DE YOUTAQA

FIGURE 3.2: Structure XML d'un article Wikipédia

qu'elles veulent. Pour notre moteur de recherche, nous avons suivi la même philosophie. Nous nous sommes basés sur la collection exhaustive d'articles fournie par Wikipédia.

3.4.1 Pré-traitement de la base Wikipédia

Fractionnement des articles

Après avoir choisi la base de wikipédia, et afin de simplifier la manipulation de la grande quantitédes données de notre base de données, nous avons procédéà une répartition des articles de wikipédia sur trois niveaux d'arborescence de dossiers. Pour cela, chaque article sera répertoriésuivant son id unique (eg. L'article avec l'id = 00020201 sera placédans le répertoire 00/02/02/ sous le nom 00020201.xml) comme le montre la Figure 3.3.

Interprétation de la syntaxe de Wikipédia

Dans ses articles, Wikipédia utilise souvent une syntaxe spéciale nommée «WikiText»2 qui sert à maquiller ses articles (par exemple, appliquer du gras sur le mot «Bonjour» revient à écrire «»'Bonjour»'» dans ses articles en format brut), ce qui nous a causés une certaine difficulté. Afin de remédier à ce problème, nous avons

2. WikiText : Langage de balisage qui permet la mise en forme du contenu des articles de Wikipédia.

29

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire"   Démocrite