WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

187

Conclusion générale et perspectives

À vous de jouer. Pouvez-vous donner un découpage de manière intuitive ?

Vous avez probablement proposé deux communautés avec {2, 3, 4} pour l'une et {5, 6, 7, 8, 9} pour l'autre. Peut-être avez-vous ajouté le « 1 » dont les échanges sont moins importants et avez-vous proposé {1, 2, 3, 4} et {5, 6, 7, 8, 9}. C'est une possibilité.

Supposons à présent que nous recevions quelques informations supplémentaires : ? 1 et 5 sont des serveurs derrière le bar.

? 2, 3 et 4 sont les parents d'une famille dont 4 est le fils.

? 7 et 8 sont les parents d'une famille dont 9 est la fille et 6 le grand-père. 8 et 6 ont beaucoup commandé à boire au serveur 5. Quant à 6, le grand-père, il est sourd. Personne ne lui parle et personne ne lui répond.

? 2, 3 sont un couple de médecins et ont échangé toute la soirée sur un cas difficile.

? Nous savons aussi que 1 et 5 (les serveurs) ont échangé sur des sujets professionnels et que les invités leur ont adressé la parole uniquement pour commander à boire.

Nous pouvons maintenant tracer un nouveau graphe. Ce graphe est celui des temps de paroles échangés dans le cadre professionnel. Nous intégrerons ici les demandes faites aux serveurs pour commander à boire comme des éléments professionnels ou fonctionnels.

2

4

1

3

9

8

7

5

6

Figure C.2 : « Qui parle à qui de sujets professionnels ou fonctionnels».

Imaginons, ensuite, un graphe où le poids de la liaison serait défini comme inversement proportionnel à la différence d'âge. Les liaisons de trop faible poids (>10 ans) ne sont pas considérées. 4 et 9 ont le même âge, soit 16 ans, 3 a 37 ans, 5 a 29 ans, 7 a 40 ans, 8 a 50 ans, 2 a 55 ans, 1 a 56 ans et 6 a 85 ans (cf. figure C.3)

188

Conclusion générale et perspectives

2

4

1

3

9

7

8

5

6

Figure C.3 : « Liaisons inversement proportionnelles à la différence d'âge ».

Dans notre quatrième graphe, les liaisons seront inversement pondérées à la distance entre les lieux d'activité professionnelle des acteurs. Pour la clarté du schéma, les distances supérieures à 100 km (jugées insignifiantes) ne sont pas représentées.

· 2 et 3 travaillent à l'hôpital de Nancy

· 8 travaille à Paris

· 7 est femme au foyer à Palaiseau

· 6 est à la retraite dans le Lot

· 1 et 5 travaillent dans un grand restaurant de Lyon

· 4 et 9 sont pensionnaires dans le même lycée international à Vérone en Italie

2

4

1

3

9

7

8

5

6

Figure C.4 : « Liaisons inversement proportionnelles à la distance des lieux de travail ».

Nous nous proposons maintenant de combiner nos graphes de telle sorte que :

· Nous supprimions les conversations professionnelles et fonctionnelles en effectuant le calcul C1-. Cela revient à supprimer du graphe C1 les éléments de liaisons présents dans le graphe (cf. figure C5).

189

Conclusion générale et perspectives

2

1

8

5

6

4

9

7

Figure C.5 : C1-.

3

? Nous pondérons les conversations du résultat de C1- par le graphe C3 : soit (C1-)*C3 (cf. figure C.6)

1

5

8

Figure C.6 : C5 *C3.

3

2

4

7

9

6

? Enfin nous pondérons de nouveau le résultat obtenu précédemment par C4, soit (C1-)*C3*C4 (cf. figure C.7)

6

5

8

1

2

3

4

9

7

Figure C.7 : (C1-) *C3*C4.

Décidément, la mère de famille (6) a bien fait de trouver suspecte sa très jeune fille (9) qui, de toute la soirée, n'a parlé avec aucun des membres de sa famille et a finalement apostrophé ce jeune homme de la famille d'en face (4). Au fait, 4 se nomme Roméo et 9 se fait appeler Juliette. Alors ?

190

Conclusion générale et perspectives

2

4

1

3

9

8

7

5

6

Figure C.8 : La communauté des amoureux : {4,9}

Les mots eux aussi peuvent être placés dans des graphes multiples afin de représenter différentes informations et différents types de liens.

Figure C.9 : le chasseur d'agrégats combine les graphes pour mieux découvrir les agrégats

Comme un chasseur d'images qui empilerait des filtres pour trouver la bonne lumière (cf. figure C.9), le chercheur d'agrégats, lui, combinerait des graphes pour trouver le bon modèle. Les mots pourraient, par exemple, être liés par leur appartenance à une langue commune. Cette liaison serait alors pondérée par la référence à un registre de langue commun. Dans un autre graphe, les liaisons représenteraient l'existence de la paire de mots dans une même définition de dictionnaire, dans une expression, dans une ou plusieurs branches d'ontologie ou encore dans un article encyclopédique. La pondération serait alors, dans ce cas, la distance des mots entre eux et le nombre d'éléments (articles, définitions) de références partagés. On peut aussi imaginer des graphes qui figureraient la géolocalisation des utilisateurs, les liaisons étant alors pondérées par la distance moyenne entre les utilisateurs. La combinaison des différents graphes apporterait, peut-être, alors, de nouveaux éléments permettant d'améliorer la qualité sémantique des agrégats.

Et pourquoi pas des graphes qui représenteraient l'usage conjoint des mots en fonction de l'appartenance des utilisateurs à des communautés ? Le graphe serait alors pondéré positivement par le fait que certains mots de la requête seraient déjà dans un agrégat

191

Conclusion générale et perspectives

correspondant à une communauté dont notre utilisateur ferait partie. Les communautés participeraient de ce fait à la création des agrégats et donc des communautés dynamiques.

Nous voudrions conclure ce travail sur une note plus personnelle à savoir : « comment vit-on cinq ans dans un Grand Graphe de Terrain ? »

Un Grand Graphe de Terrain est indicible. Il n'est pas résumable, fût-il construit de mots. Après plusieurs années à côtoyer le log d'AOL c'est avec la plus grande humilité que nous convenons n'en avoir qu'une infime idée.

Les ensembles constitués de millions d'objets ne peuvent être perçus que globalement, à travers des chiffres tels que les moyennes de telles ou telles valeurs ou alors « au microscope » par l'observation d'exemples concrets de quelques échantillons. La lecture des distributions des valeurs caractérisant un graphe est une vision intermédiaire. En cela, elle est pertinente mais aussi bien parcellaire.

Notre sentiment d'incompétence à percevoir la nature de ces grands graphes de terrain au bout d'un si long temps de recherche est bien réel. La frustration est d'ailleurs partagée et la recherche pour visualiser les graphes est un domaine où art, informatique et mathématiques sont fortement mis à contribution.

Figure C.10 : Graphe de terrain des coopérations entre artistes de la base de données last.fm.

La couleur est donnée en fonction du style de musique : rock (rouge), pop (vert) et le hip-hop (en bleu)... Auteur Tamas Nepusz, co-créateur du logiciel IGraph.

192

Conclusion générale et perspectives

Le graphe que nous avons sans doute le plus « apprivoisé » est celui que nous avons le moins « regardé ». Expliquons-nous : en travaillant sur les données pédophiles des réseaux eDonkey-10-semaines nous n'avions pas les mots au format texte (ceci pour des raisons légales) mais seulement des identifiants numériques. Cela nous a interdit de lire le graphe comme un ensemble de mots ou de retrouver des espaces sémantiques. Cela nous a aussi empêché de traiter différemment certains mots (en pratiquant par exemple des exclusions sur des mots vides). Nous avons alors travaillé sur le graphe comme un artiste sur une matière inconnue. Nous avons cherché des points d'appui, de rupture, des noeuds de matière. Comme un sculpteur ou un potier qui sent sa terre et sait à l'avance quand elle va rompre, nous avons beaucoup appris de ce graphe, par ses réponses aux contraintes, celles que nous lui faisions subir par l'utilisation des algorithmes d'agrégation.

193

Bibliographie

précédent sommaire suivant