Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion générale et

perspectives

L'objet de ce travail était l'étude de regroupements d'objets dans les réseaux de grandes tailles.

Dans une première partie, après une brève présentation des caractéristiques des grands graphes de terrain et des petits mondes, nous avons exposé un éventail des techniques de regroupement de noeuds existantes. Nous avons plus particulièrement insisté sur les techniques permettant des recouvrements d'agrégats de noeuds.

Dans une seconde partie correspondant à notre contribution, nous avons décrit plusieurs algorithmes permettant de créer ou d'enrichir des agrégats de mots issus de réseaux provenant de fichiers de log de moteurs de recherche ( AOL.com, Edonkey). L'évolution de ces algorithmes a permis de proposer une méthode capable d'extraire des agrégats d'un méga-graphe de terrain, sans que celui-ci ait à être préalablement filtré. Par la reconnaissance et l'éviction de noeuds concentrateurs ou « hubs » et de noeuds présentant des liens faibles nous avons pu contenir la taille des agrégats de façon à en garantir la cohérence sémantique.

Certains résultats sont à considérer comme acquis. Cependant, les techniques d'agrégation présentées, comme celles de validation sémantique, sont le début d'une recherche à approfondir.

À propos des techniques d'agrégation dans les graphes de mots utilisés conjointement dans des requêtes nous pouvons conclure que :

? les algorithmes d'agrégation ne peuvent être génériques et se doivent de considérer et la nature des réseaux étudiés et la nature des regroupements à créer ;

? dans les grands graphes de terrain de mots, si l'on cherche à créer des ensembles sémantiquement cohérents, les techniques séparatistes et

185

Conclusion générale et perspectives

déterministes ou encore ne travaillant pas en respectant la pondération des graphes sont à écarter. Les techniques agglomératives sont préférables ;

? il existe statistiquement un nombre maximal de mots à ne pas dépasser dans un ensemble si l'on veut conserver une bonne qualité sémantique sur l'ensemble des agrégats créés (dans les réseaux étudiés ce nombre est entre 30 et 40 mots) ;

? il est possible de créer des agrégats présentant statistiquement une bonne cohérence sémantique.

Les méthodes de rigidification constituent une base qui est ouverte aux modifications ; le choix de créer des agrégats comme des composantes bi-connexes n'est qu'une des possibilités ; ce choix pouvant être même modifié dynamiquement de telle manière qu'un graphe trop grand puisse se voir imposer comme règle d'être tri-connexe et ensuite quadri-connexe s'il est encore trop important et ainsi de suite. La souplesse de cette méthode et le support de différentes contraintes possibles de l'opérateur d'extension en fait une excellente base d'étude.

Les validations humaines ne présentent souvent que peu d'intérêt pour faire évoluer les méthodes. Elles demandent beaucoup d'efforts. Sans références comparatives mesurables, elles ne sont qu'un avis. Quand elles ont pour but la comparaison de différentes méthodes, elles ne parviennent le plus souvent qu'à un classement des dites méthodes. Pourtant, ce type de validation est indispensable. En effet, puisqu'il n'existe pas, à ce jour, de système étalonné de mesure de la cohérence sémantique des agrégats, seul le jugement d'un esprit humain, expert du domaine, peut fournir un avis de référence.

Il est parfois possible d'utiliser des systèmes de satisfaction étalonnés, comme nous l'avons fait avec TREC-Eval, et d'en tirer alors des conclusions plus précises.

Une mesure incontestable reste celle de la satisfaction d'usage. Pour l'obtenir, il est nécessaire de passer par une utilisation fonctionnelle des agrégats, comme la création de communautés dynamiques d'utilisateurs (cf. Avant-propos). La satisfaction d'usage des utilisateurs d'un tel système devient ainsi la mesure indiscutable de la qualité sémantique des agrégats.

La comparaison de comportements d'ensembles d'éléments déterminés reste à nos yeux la solution la plus efficace. Il convient bien sûr de posséder un échantillon suffisant et des éléments aux caractéristiques fortement identifiées. Si les résultats ne sont pas différentiables la mesure n'a alors pas lieu d'être. Dans le cas contraire, on peut estimer qu'elle possède une vraie valeur. Cette valeur doit cependant être relativisée en fonction : de la taille de l'échantillon, de la distance entre les populations identifiées et des critères ou comportements observés. Il est important ici de noter que les mesures de moyenne, d'écart type ou de variance ne sont pas toujours à considérer. L'observation de la distribution des valeurs retournées par la mesure des différentes populations permet de détecter des zones plus distantes. Ces zones sont alors un espace valide dans la comparaison de ces populations prédéterminées et des agrégats.

186

Conclusion générale et perspectives

Ces algorithmes qui ont, dans une certaine mesure, fait la preuve de leur efficacité peuvent être validés par des utilisateurs intégrés aux communautés ; une communauté d'utilisateurs pouvant alors se définir comme un système interactif toujours en évolution. En proposant, pondérant ou écartant des mots, les adhérents d'une communauté peuvent la faire vivre et améliorer la pertinence des agrégats et donc la manière dont la communauté peut se proposer à de nouveaux membres. Il reste là tout un équilibre à inventer entre interactions humaines et agrégations algorithmiques.

En plus de la participation des utilisateurs, les pistes d'amélioration de la qualité des agrégats sont très nombreuses. Il est possible de créer des liens supplémentaires entre des mots par l'utilisation de dictionnaires, de sites encyclopédiques ou encore de dictionnaires ontologiques. Dans ce cas, le lien serait porteur, par sa pondération, de la signification de la précédence d'un mot dans la définition d'un autre. Des algorithmes comme celui de « Porter » [Sparck&al-1997] permettraient de créer des liens supplémentaires entre des mots ayant une racine commune. Ainsi, de nouveaux graphes seraient créés puis combinés entre eux pour trouver les agrégats. En effet, si la pondération de liaisons hyper-définies est un élément qui a permis d'améliorer la qualité des agrégats, elle est aussi responsable de certaines limitations. Une fois définie et pondérée elle ne peut représenter qu'un seul type de relation. D'un autre côté, il n'est pas question de revenir à des liaisons non spécifiées et donc non pondérées.

Au contraire, notre conviction est que la qualité des agrégats ne saura progresser qu'en affinant le plus possible les informations que sous-tendent les liaisons. Nous pensons qu'une des pistes permettant de mieux cerner ces relations est de combiner plusieurs graphes. Nous entendons par « combinaison » l'ensemble des opérations mathématiques possibles.

Pour expliciter notre propos, nous proposons en conclusion de ce travail et pour sourire, un petit jeu utilisant ce type de raisonnement :

Notre graphe représente un réseau social. C'est en fait une soirée où « il faut être ». Nous désirons identifier des communautés « d'affection réciproque » (sans plus les définir), présentes dans cette soirée. Nous nous fondons pour cela sur les éléments verbaux échangés. Le graphe est dirigé et pondéré selon le sens de « qui parle à qui » et le temps de parole est représenté par l'épaisseur du trait. Pour simplifier on suppose ce temps de parole équitablement partagé si les flèches vont dans les deux sens.

²

⁴

¹

³

⁹

⁸

⁷

⁵

⁶

Figure C.1 : Cherchez la ou les communautés dans une soirée - « Qui parle à qui ? ».

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Le doute est le commencement de la sagesse" Aristote