Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

La méthode AGGR a donné des résultats intéressants. Elle sera même classée dans le comparatif comme une des deux meilleures méthodes capables de ramener des mots ayant du sens autour des agrégats proposés : « They show that, even at the word level, AGGR and COOC significantly surpass other methods. They are able to construct lists of 30 keywords, half of which are classified as specific paedophile keywords by more than half our experts. » [Belbeze&al-2009-2].

Mais l'élément essentiel de ce comparatif reste la mise en évidence de deux points :

· le premier point est l'importance de la cooccurrence et de sa pondération relative à l'usage global du mot ;

· Le second est que des systèmes non optimisés et automatiques peuvent extraire des espaces sémantiques cohérents de fichier de log de moteurs de recherche.

L'importance des cooccurrences d'usage est directement donnée par la conclusion du challenge « les méthodes recherchant les mots directement reliés aux mots du registre pédophile fonctionnent de manière plus efficace que les méthodes plus complexe ». La pondération permet de faire baisser la présence de mots de « type 4 » dans les agrégats en les situant comme non spécifiques.

Enfin, la capacité de deux méthodes, dont AGGR, à présenter des résultats de qualité aux experts prouve le bien-fondé de ces travaux.

4.5 Conclusion

Au cours de ce travail, plusieurs points, concernant l'identification d'agrégats dans de grands réseaux de mots utilisés conjointement, ont pu être clarifiés :

· les méthodes d'agrégation doivent traiter la liaison en fonction de sa nature et de son importance relative à l'usage des mots (ce qui signifie que nous devons utiliser des graphes pondérés et dirigés) ;

· la reconnaissance de « figures » fortement connectées comme des cliques ne permet pas à elle seule de détecter des ensembles thématiques cohérents. Les comparaisons de méthodes menées pour la recherche de mots utilisés par les

4.5 : Conclusion 181

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

pédophiles a permis de montrer que les méthodes utilisant la pondération relative sont les plus efficaces [Belbeze&al-2009-2].

Ceci pourrait donc aussi signifier de manière plus générale que les méthodes dîtes « séparatistes » ne seraient pas la bonne voie. De plus, la plupart des méthodes séparatistes requièrent comme paramètre le nombre d'agrégats à créer, elles partent de l'ensemble du graphe pour rechercher un nombre de sous-ensembles. Ce qui est à l'opposé des méthodes d'agrégation locales basées, elles, sur une analyse contextuelle et locale.

La validation d'un agrégat de noeuds issu d'un processus de regroupement dans un graphe est d'autant plus difficile que sa définition est incomplète. Dans le cas qui nous occupe, même s'il existe une parenté entre l'agrégat et le champ lexical, nous ne sommes pas parvenus à définir l'agrégat précisément. Le champ lexical est défini pour un contexte qui est textuel, l'agrégat est défini dans un réseau. La taille moyenne des textes étudiés par les linguistes et celle des réseaux de mots que nous étudions sont suffisamment éloignées pour que la nature des travaux ne puisse être comparée.

Dans nos méthodes de validation, nous avons seulement cherché à mesurer la cohérence sémantique du regroupement. Pour cela, trois types de méthodes ont été utilisées :

? les méthodes par comparaison de la distribution de certaines mesures, pour des catégories entre des combinaisons de mots particulières et des combinaisons des mots issus d'agrégats ;

? les méthodes de validation basées sur le jugement d'un expert pour des regroupements de mots dans un domaine particulier (la pédophilie dans le cadre de ce travail).

? Des méthodes mixtes qui comparent les résultats du comportement de combinaisons de mots par rapport à une « baseline » construite manuellement.

Chaque type de méthode possède ses propres limites et ses qualités :

Les méthodes de comparaison comportementale d'un type de mot présentent l'avantage considérable de s'auto valider. En effet, la distance (ou différence) de comportement entre les ensembles aléatoires et ceux considérés comme sémantiquement valides est directement lisible comme le facteur de qualité de telles méthodes.

En revanche, ces méthodes sont lourdes à mettre en oeuvre. En effet, fondées sur un comportement statistique, elles ne peuvent être considérées valides que si elles sont appliquées sur des échantillons de grande taille.

Les évaluations manuelles, si elles ne sont fondées que sur le simple avis d'un expert sont sans doute les moins informatives. Les observations de quelque ordre que ce soit sont finalement peu instructives. Comment évaluer, sans référentiel, un élément tel que la cohérence sémantique d'un agrégat ? La question n'a pas trouvé de réponse.

4.5 : Conclusion 182

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Il n'en reste pas moins, que sur le plan humain, la parole d'un expert validant la qualité sémantique d'un agrégat de mots créé par une méthode est incontournable. La nature particulièrement subjective de ce qu'est la cohérence sémantique ne peut se contenter de système de mesure automatique.

La comparaison de regroupements avec une base de qualité construite manuellement et étalonnée comme TREC-Eval est sans doute plus adaptée pour valider nos agrégats. Malheureusement, la taille de la base de TREC-Eval est encore trop faible pour servir d'outil de mesure absolu.

La véritable évaluation consisterait sans doute à récolter les niveaux de satisfaction des utilisateurs d'un système tel que celui décrit dans notre avant-propos. La mise au point (en vrai-grandeur) d'un système de création de lien social autour des agrégats permettrait alors de juger de leur cohérence sémantique.

Toutefois, nous devons valoriser la réussite de la démarche concernant la cohérence entre plusieurs méthodes de validation. Ainsi, les agrégats créés avec la méthode de Rigidification Régulée sur le réseau « 100 mots dans AOL » ont été testés avec pratiquement les mêmes résultats par deux méthodes comparatives : MCCVS (Méthode Comparative de Coefficient de Validation Sémantique) et MCCDR (Méthode de Comparaisons de Cohérence de Documents Retournés). La première méthode évalue le Coefficient de Cohérence Sémantique Comparé de ces agrégats à 0.899 et la seconde donne une valeur de 0.898 pour le Quotient de Centralité Sémantique Comparé. La proximité de ces résultats encourage à penser que l'usage de plusieurs méthodes de validation sémantique est souhaitable, leur résultat respectif pouvant alors se valider l'un l'autre.

Enfin, quelques mots sur les technologies utilisées pour ces expérimentations : nous avons utilisé des systèmes de bases de données pour stocker et étudier les graphes. Or, beaucoup de chercheurs « chargent » directement les graphes en mémoire dans des structures chainées représentant le graphe. Ceux-ci sont souvent persuadés que, par sa simplicité, ce système est le plus rapide. C'est sans doute le cas pour des opérations de boucles systématiques. Mais les bases de données ont de nombreux avantages :

? elles permettent de stocker infiniment plus de matière que la ram disponible sur l'ordinateur (dans le cas de Méga-Graphes, elles sont donc une aide précieuse) ;

? dans le cas d'études et de recherches de type « Brain Storming » sur le graphe le langage SQL permet interactivement d'ausculter et de retourner des informations très rapidement ;

? en changeant très peu de codes on peut travailler sur toute la base, un extrait ou un type de données particulier ;

4.5 : Conclusion 183

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

? les nouvelles fonctions de type « select into » fournies par les éditeurs permettent d'extraire rapidement une partie du graphe choisi selon toutes les conditions possibles ;

? grâce à des index bien choisis il est possible d'accélérer l'extraction de données de telle sorte que les réponses soient immédiates alors qu'une boucle en mémoire consommera toujours un temps proportionnel au nombre d'éléments ;

? les moteurs de base de données modernes savent parfaitement paralléliser les requêtes de façon à utiliser les machines modernes multiprocesseurs (cela permet de profiter immédiatement de la puissance de calcul maximale de la machine sans avoir à écrire un code complexe parallélisable) ;

? il est possible de stocker l'avancée des travaux dans la base et de reprendre naturellement un travail en cours, ce qui permet la reprise sur incident simplement.

Il nous semble donc utile de ne pas écarter systématiquement les technologies de type « base de données » pour qui veut se confronter aux très grands graphes de terrain. Elles ont aussi, nous devons en convenir, des inconvénients. La simplicité apparente de l'usage de ces systèmes de gestion de bases de données cache des algorithmes très complexes. Souvent, pour des raisons commerciales, ces algorithmes sont peu détaillés. Il devient alors très difficile d'en prévoir les performances et plus encore dans des conditions d'usage intensif.

184

Conclusion générale et perspectives

précédent sommaire suivant

"Aux âmes bien nées, la valeur n'attend point le nombre des années" Corneille