WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Conclusion

Les regroupements en cliques sont une étape d'étude. Les cliques relevées n'ont pas donné satisfaction en de nombreux points.

Tout d'abord, la taille « maximale » des cliques est très faible.

4.4 : Résultats des regroupements et validation sémantique 152

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Ensuite, plus de 70 % des cliques ne sont en fait que le résultat d'une requête. En effet, il suffit d'une requête de neuf mots pour créer une clique d'autant de mots. Chacun des neuf mots de la requête a bien été utilisé avec les huit autres. Il n'y a pas, avec cette méthode, de pondération et donc de seuil de validation des liaisons.

Par ailleurs, une vérification manuelle rapide nous montre que les agrégats ne sont pas sémantiquement cohérents. La non prise en compte de la pondération des liens permet de créer des ensembles non significatifs. (cf. figure 4.11). Les éléments utilisés une fois conjointement créent forcément une clique. Les mots les plus utilisés servent de hubs à des cliques dans lesquelles les autres mots se sont trouvés simplement une fois « au contact » de tous les autres. Ceci n'est pas représentatif des « véritables » usages. Une utilisation exceptionnelle ou erronée, d'un terme provoque des liens tout aussi valides que des utilisations nombreuses.

Enfin, sur ce réseau, nous avons dû supprimer préalablement les mots vides pour éviter des agrégats encore moins cohérents. Ce type de regroupement n'est pas efficace sur des réseaux de cette nature (cf. figure 4.11). En revanche, sur d'autres réseaux, notamment sur des réseaux possédant la caractéristique d'imposer un degré limité à chaque noeud, ils peuvent être très efficaces. Le travail de Palla & all [Palla&al-2005] (cf. paragraphe 2.3.1) utilisant la notion d'agrégation de cliques a, sur des réseaux biologiques, donné d'excellents résultats.

4.4.2 Agrégation par la méthode de Rigidification Simple sur réseaux AOL-17/04/2006 et AOL-17/03/2006 - Validation par MCCVS

Matériel et conditions de test

Pour cette validation nous travaillons sur les réseaux : AOL-17/04/2006 et AOL-17/03/2006.

Définition des paramètres de l'algorithme

Après plusieurs essais sur des échantillons, nous avons défini les valeurs des seuils : Valeur Minimale de CFL ou Val-Min-CFL à 5 % du poids du mot-clé et la Valeur d'Activation ou Val-Activ-CFL à 20 % du poids du mot-clé (cf. paragraphe 3.3).

Ces essais, effectués par approximations successives sur des échantillons du graphe, ont permis de définir des valeurs qui, tout à la fois, autorisent la création d'agrégats et limitent la taille maximale des agrégats à des valeurs qui, intuitivement, semblent correctes. Nous avons considéré que la taille maximale devait être inférieure à un millier de mots.

Ces valeurs pourront être modifiées lors de prochaines expérimentations ; ici, elles servent d'exemples et ne constituent pas le sujet de l'étude. Elles doivent cependant nous permettre de valider la méthode en créant suffisamment d'agrégats pour étudier ceux-ci, c'est ce qui a été validé par les essais préliminaires.

4.4 : Résultats des regroupements et validation sémantique 153

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Nombre et nature des agrégats créés

La démarche implantée a permis de former 9 556 agrégats construits avec 38 621 mots-clés dont 24 537 mots-clés différents dans l'ensemble des agrégats (cf. figure 4.12). Le nombre moyen de mots-clés par agrégat est de 4,04. L'agrégat le plus important contient 133 mots-clés.

Figure 4.12 : Répartition des agrégats en fonction du nombre de mots-clés

Estimation de la qualité sémantique des agrégats

40

70

60

50

30

20

10

0

A

B

Trios de mots aléatoires

Triades existantes dans une requête utilisateur au moins

C

D

Figure 4.13 : Comparaison des réponses aux requêtes susceptibles d'être les plus éloignées sémantiquement (cf. 4.3.1) et détermination de la zone à plus forte divergence.

Nous comparons ici les deux courbes de réponses des deux espaces les plus éloignés sémantiquement selon le postulat posé en section 4.3.1. Nous comparons la courbe issue des mots combinés aléatoirement (excluant des triades de mots utilisées dans une recherche) avec la courbe de référence issue du test de triades de mots pour lesquelles il existe au moins une

4.4 : Résultats des regroupements et validation sémantique 154

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

recherche incluant ces trois mots-clés. Sur la figure 4.13, nous distinguons quatre zones clairement identifiables, la zone A de 0, la zone B de 2^1 à 2^9, la zone C de 2^10 à 2^20 (cf. figure 4.14) et la zone D supérieure à 2^20. Les zones « B » et « D » ne présentent pas beaucoup d'intérêt, les courbes n'ayant pas de différence notable. La zone « A » est limitée à une seule valeur et ne peut donc représenter une étendue suffisante pour mener notre étude. La zone « C » est la zone la plus singulière avec une plage suffisante pour avoir un sens. Afin de mieux percevoir l'importance de la zone « C », reprenons une lecture du graphique en omettant les zones A, B et D.

14

12

10

4

8

0

6

2

2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20

Trios de mots aléatoires

Triades existantes dans une requête utilisateur au moins

C

Figure 4.14 : Zoom sur la zone « C » sélectionnée comme zone d'étude.

La zone « C » nous sert de zone de validation sémantique. Afin de pouvoir élaborer une comparaison rapide et arithmétique, nous définissons un coefficient approprié.

Calcul du Coefficient de Validation Sémantique Comparée (CVSC)

Figure 4.15 : Représentation de la Zone C en aires couvertes par les deux courbes de référence.

4.4 : Résultats des regroupements et validation sémantique 155

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Nous considérons que les classes en puissance de deux forment une échelle d'indice « un » et comparons l'aire prise par les deux histogrammes. Le CVSC, ou Coefficient de Validation Sémantique Comparé, a alors la valeur « 1 » pour l'équivalence de l'histogramme des triades (de trois mots-clés) ayant été au moins une fois utilisées dans une même recherche et 0 pour la valeur de l'histogramme des trios aléatoires.

AR définit l'aire de l'histogramme des triades dont tous les mots sont inclus au moins une fois tous ensemble dans une recherche selon la formule CVSCX = (AX - AA) / (AR - AA) (cf. paragraphe 4.31) :

AA définit la valeur de l'aire de l'histogramme des triades aléatoires :

Ax définit la valeur de l'aire de l'histogramme des triades à comparer :

Comparaison des coefficients CVSC pour des agrégats de tailles différentes

Dans un premier temps nous étudions le comportement des agrégats en fonction de leur taille. Pour plus de lisibilité nous les regroupons en cinq familles correspondant aux cinq décades : les agrégats de moins de 10 mots, ceux de moins de 20 mots et plus de 9, ceux de moins de 30 mots et plus de 19, ceux de moins de 40 mots et plus de 29 et enfin ceux de plus de 39 mots.

Le but de ce test est de détecter s'il existe une corrélation entre la taille des agrégats et la valeur du CVSC.

4.4 : Résultats des regroupements et validation sémantique 156

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

4

9

8

0

7

6

5

3

2

1

2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20

Trios de mots aléatoires

Trios de mots pris dans des agrégats de 3 à 9 mots-clés

Trios de mots pris dans des agrégats de 10 à 19 mots-clés

Trios de mots pris dans des agrégats de 20 à 29 mots-clés

Trios de mots pris dans des agrégats de 30 à 39 mots-clés

Trios de mots pris dans des agrégats de 40 et plus mots-clés

Figure 4.16 : Représentation graphique des CVSC en fonction de la taille des agrégats en zone « C » de validation sémantique.

Taille des agrégats en nombre de mots-clés

CVSC

De 3 à 9

0.89

De 10 à 19

0.80

De 20 à 29

0.61

De 30 à 39

0.57

Plus de 39

0.29

Tableau 4.7. Valeur des CVSC en fonction de la taille des agrégats en zone « C » de validation sémantique.

L'analyse des courbes présentées et des valeurs de CVSC montre une forte corrélation entre la taille des agrégats et les valeurs du coefficient. Si la taille des agrégats est inversement proportionnelle aux CVSC mesurés, on note un écroulement à partir de 40 mots et au-delà.

Borner la taille des agrégats est donc un moyen pour limiter le nombre des agrégats ayant une faible cohérence sémantique.

Comparaison des coefficients CVSC en excluant les recherches utilisateurs

Afin d'estimer la perte de cohérence sémantique liée à la notion d'agrégat, il est pertinent de comparer les coefficients sémantiques obtenus pour les mêmes classes d'agrégats

4.4 : Résultats des regroupements et validation sémantique 157

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

en excluant les triades utilisées dans une recherche au moins. Ainsi, les coefficients obtenus ne doivent leur valeur qu'à des combinaisons créées par la méthode de Rigidification Simple.

4

0

6

5

3

2

1

2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20

Trios de mots aléatoires

Trios de mots dans des agrégats de 3 à 9 mots-clés jamais utilisés dans une requête

Trios de mots dans des agrégats de 10 à 19 mots-clés jamais utilisés dans une requête

Trios de mots dans des agrégats de 20 à 29 mots-clés jamais utilisés dans une requête

Trios de mots dans des agrégats de 30 à 39 mots-clés jamais utilisés dans une requête

Trios de mots dans des agrégats de 40 mots-clès et plus jamais utilisés dans une requête

Figure 4.17 : Représentation graphique des CVSC en fonction de la taille des agrégats en zone « C » de validation sémantique en excluant les triades incluses dans une requête d'utilisateur.

L'observation des chiffres du CVSC (cf. tableau 4.8) des trios issus d'agrégats et n'ayant jamais été utilisés dans une recherche par un utilisateur nous conforte sur le seuil à ne pas dépasser. En effet, les agrégats de moins de 30 mots gardent un ratio supérieur à la moyenne.

Il est difficile de déterminer sans une étude détaillée au cas par cas les raisons de la baisse du coefficient. Cependant, la possibilité qu'un mot soit utilisé dans des acceptions différentes peut en être une des causes.

Taille des agrégats en nombre de mots-clés

CVSC

Perte

De 3 à 9 mots

0.62

0.27

De 10 à 19 mots

0.57

0.23

De 20 à 29 mots

0.56

0.05

De 30 à 39 mots

0.28

0.29

De 40 à 49 mots

0.17

0.12

Tableau 4.8. Valeur des CVSC en fonction de la taille des agrégats.

4.4 : Résultats des regroupements et validation sémantique 158

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Ainsi, que ce soit de manière graphique (cf. figure 4.17) ou par le calcul du CVSC (cf. Tableau 4.8), on peut conclure que plus le nombre de mots-clés est important plus le CVSC a tendance à baisser. Cette étude révèle finalement que les agrégats d'une taille supérieure à 30 mots possèdent un CVSC inférieur ou égal à 0.5.

Placer une limite absolue sur une qualité aussi subjective que la cohérence sémantique d'un groupe de mots n'a bien sûr aucun sens si cela n'est pas fait de manière statistique et seulement dans le but d'étudier le comportement des agrégats.

En fixant un seuil de qualité au niveau de la valeur médiane (0.5 comme on le fait pour valider un examen), on considère que statistiquement les agrégats de plus de 30 mots-clés ne présentent pas un CVSC acceptable.

Mais plus que la valeur du CVSC elle-même, c'est la baisse brutale de cette valeur qui est intéressante. Tandis qu'entre des agrégats de 3 à 9 et 20 à 29 le coefficient baisse seulement de 9.6%, entre les agrégats de 20 à 29 et ceux de 30 à 39 le coefficient s'écroule de 50 %. La chute s'accentuant encore de 39% supplémentaire entre les agrégats de 30 à 39 et ceux de 40 à 49.

Ce test révèle donc la baisse brutale de CVSC pour les agrégats de taille supérieure à 30 mots.

Comparaison entre les réseaux AOL-17/04/2006 et AOL-17/03/2006

Afin de savoir si ces résultats sont liés au contexte comme, par exemple, le jour choisi dans le fichier de log, nous avons rejoué notre test sur un autre jour du fichier du log d'AOL, le 17/03/2006.

14

12

10

4

8

6

2

0

2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20

Moins de 30 du 17 03 Moins de 30 du 17 04

30 et plus du 17 03 30 et plus du 17 04

Figure 4.18 : Comparaison des courbes de CVSC pour les agrégats de moins et de plus de 30 mots-clés sur les deux réseaux différents.

4.4 : Résultats des regroupements et validation sémantique 159

précédent sommaire suivant