WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Chapitre 3.

Les méthodes d'agrégations

proposées

3.1 Introduction

Nous présentons dans ce chapitre quatre méthodes de création ou d'enrichissement d'agrégats, dont trois que nous avons créées. Leur avantage est qu'elles offrent toutes la possibilité de créer des agrégats avec recouvrements sans qu'il soit nécessaire de prédéfinir le nombre d'agrégats à priori. Elles sont présentées par ordre « chronologique » de conception. Chaque méthode proposée est en fait une évolution de la ou des précédentes. Pour expliquer et justifier ces modifications, il nous est apparu intéressant d'en décrire la source et les mécanismes.

Les quatre méthodes proposées sont :

? L'agrégation par détection de cliques, nommée « Détection de Cliques ». Cette méthode est avant tout un moyen d'évaluation de la difficulté du travail et d'apprentissage du réseau à traiter. Elle peut être considérée comme une implantation extrêmement simplifiée, de la méthode de C-Finder [Palla&al-2005].

? La rigidification, méthode que nous avons créée et nommée « Rigidification Simple ». Cette nouvelle méthode est basée sur des règles locales. Elle a pour but dans un réseau particulièrement pollué par des liaisons de validités diverses de proposer un tri entre liaisons à écarter et liaisons à conserver. Elle est aussi une phase d'apprentissage sur le réseau, la nature et la qualité des agrégats que l'on peut espérer créer. Cette méthode issue d'une théorie mathématique de

3.2 : Méthode 1 : Détection de cliques 90

Chapitre 3. Les méthodes d'agrégations proposées

G.C.S.P. (Geometric Constraint Satisfaction Problem) est à notre connaissance la première implantation de cette théorie mathématique [Belbeze&al-2009-3].

? La rigidification avec régulation de taille des agrégats, méthode que nous avons créée et nommée « Rigidification Régulée ». Nous avons notablement amélioré la méthode précédente « Rigidification Simple » sur plusieurs points. Se fondant toujours sur la même théorie mathématique de GCSP, elle permet de conserver l'ensemble des noeuds dans le graphe à étudier préalablement à la création d'agrégats et d'améliorer la qualité des agrégats créés [Belbeze&al-2009-1].

? L'enrichissement des agrégats, méthode que nous avons créée et nommée « Enrichissement par Gravité ». Cette méthode permet de rajouter aux agrégats connus des noeuds périphériques. Contrairement aux méthodes présentées dans la partie 1 comme « méthodes en plusieurs phases » [Shang&al-2007] [Baumes&al-2005-2], celle qui est présentée ici ne cherche pas à étendre ou créer des parties en recouvrement. Cet algorithme a pour but de rattacher de manière pondérée à un ou plusieurs agrégat(s) des noeuds isolés. De plus, l'enrichissement par gravité n'est pas une simple phase participant d'une méthode plus générale, mais une méthode à part entière. Ainsi, elle sera validée indépendamment des méthodes par regroupement [Belbeze&al-2009-2].

Ces méthodes ont toutes les quatre comme point commun qu'elles partent d'un noeud (ou d'un agrégat de noeuds) pour construire de manière agrégative l'ensemble recherché. En effet, elles ne travaillent pas sur l'ensemble du réseau, elles considèrent un noeud et ses voisins comme espace de première exploration. Compte tenu de notre objectif qui est de créer des agrégats de mots sémantiquement cohérents, la démarche ne nous semble pas pouvoir être séparatiste ou globale. Au contraire, l'ajout ou la suppression d'un mot pouvant faire évoluer fortement la cohérence sémantique d'un agrégat, la méthode se doit d'être une méthode d'agrégation contextuelle. Le contexte est défini par les mots déjà présents dans l'agrégat et les mots susceptibles d'être rajoutés. Les méthodes présentées ne sont donc ni séparatistes ni globales. De plus, les méthodes séparatistes sont souvent déterministes dans le nombre d'agrégats à créer. Compte tenu de la nature des réseaux et des agrégats recherchés, la prédétermination de cette valeur ne peut se faire sur de véritables fondements sémantiques.

précédent sommaire suivant







Rassembler les contraires c est creer l harmonie