WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

II. Approche et principaux objectifs

L'essentiel de notre approche consiste à agréger les noeuds d'un graphe ; chaque agrégat obtenu devant correspondre à un ensemble présentant une cohérence sémantique. Notre approche se propose de traiter principalement les problématiques suivantes :

? Créer des agrégats de mots pouvant contenir des parties en recouvrement. Une orthographe peut appartenir à plusieurs thématiques. Pour cette raison nous étudions plus particulièrement les méthodes de regroupement avec recouvrements.

? Définir une technique de regroupement garantissant une forte cohérence sémantique. Pour cela nous proposons et utilisons plusieurs techniques de regroupement avec recouvrements ou de création de recouvrements et de validation sémantique dont nous comparerons les résultats.

? Caractériser les agrégats pour comprendre les différences de cohérence sémantique. Nous recherchons par une évaluation sémantique en fonction de caractéristiques et plus particulièrement de la taille des agrégats, à déterminer ce qui fait la différence entre des agrégats de forte et de faible homogénéité sémantique.

? Créer des agrégats non pollués. Les mots ne sont pas tous égaux entre eux en tant que signifiants. Les mots de liaisons ou les articles ne sont pas, par

III. Plan du mémoire 25

Introduction générale

exemple, porteurs de sens. Nous rechercherons une technique de regroupement qui a la capacité d'écarter ou de conserver ces mots en fonction de leurs usages dans la globalité du graphe et dans la relation locale aux mots de l'agrégat.

? Proposer des techniques de validation de la cohérence sémantique des agrégats. Nous proposons et mettons en oeuvre plusieurs techniques de validation de la cohérence sémantique des agrégats, notamment une technique de validation basée sur la comparaison du « comportement » d'agrégats avec le comportement « des requêtes d'utilisateurs » et d'agrégats aléatoires lorsqu'ils sont utilisés comme élément de requêtes dans des moteurs de recherche. D'autres techniques automatiques, manuelles ou semi manuelles sont utilisées et comparées.

III. Plan du mémoire

Ce mémoire est constitué de deux parties.

La première partie présente le contexte de notre travail et l'état de l'art des travaux connexes. Cette première partie est divisée en deux chapitres :

? Dans le premier chapitre, nous introduisons le vocabulaire utilisé dans le mémoire.

? Dans le second chapitre, nous proposons un état de l'art des méthodes utilisées pour créer des communautés dans un graphe. Nous étudierons ces différentes propositions en fonction de notre objectif. Dans notre cas la nature des objets manipulés - des agrégats de mots représentant un thème - nous ont amenés à classer ces méthodes en deux familles principales : les méthodes sans recouvrements et les méthodes avec recouvrements.

Dans une deuxième partie nous décrivons notre contribution. Fondée sur une recherche orientée sur la création de regroupements de mots, elle ne prétend en aucun cas se positionner comme une technique universelle. Cette deuxième partie est partagée en deux chapitres.

? Dans le troisième chapitre, nous exposons plusieurs techniques de regroupement. Nous justifions l'usage d'une nouvelle technique fondée sur la résolution de contraintes ainsi que ses évolutions et des techniques complémentaires.

? Dans le quatrième chapitre, nous présentons plusieurs techniques d'évaluation de la validité sémantique des agrégats de mots obtenus par les méthodes du chapitre précédents.

Enfin, dans un cinquième chapitre, nous faisons partager au lecteur quelques réflexions, retours d'expériences et sentiments personnels sur notre expérience.

1.1. Introduction 26

Première partie. Définitions et état de l'art

précédent sommaire suivant