Memoire Online - Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

Date	Taille de l'agrégat	*CVSC*
17/04/06	Inférieur à 30 mots	.83
17/03/06	Inférieur à 30 mots	.86
17/04/06	Supérieur à 30 mots	.45
17/03/06	Supérieur à 30 mots	.37

Tableau 4.9 : Comparatif des valeurs de CVSC pour les agrégats de moins et de plus de 30 mots-clés sur deux réseaux différents.

Nous avons donc traité l'échantillon du 17 mars 2006 avec une méthode HLS-CVSC identique à celle du 17 avril 2006. On observe une grande cohérence entre les courbes issues des logs du 17 avril 2006 et celles issues des logs du 17 mars 2006. Cela confirme les conclusions sur la relation entre la taille des agrégats et les valeurs de CVSC et le fait que cette information semble indépendante du contexte temporel.

Comparaison des CSVC entre les triades et les trios de mots au sein des agrégats

Un terme n'est pas toujours monosémique. Ainsi, les agrégats incluant des mots polysémiques, sont susceptibles de contenir des combinaisons de mots (trios) de faible coefficient sémantique, en raison de ces multiples sens.

Dans cette section, au travers de deux exemples nous illustrons la baisse du coefficient identifiée précédemment.

Le premier exemple est purement théorique (cf. figure 4.19), le deuxième est un véritable agrégat créé avec la méthode de Rigidification Simple sur le réseau AOL-17/04/2006.

Le graphe de la figure 4.19 ci-dessous, illustre les concepts de musique et de cuisine, notamment au travers des mots « chef », « piano » et « sol ».

Figure 4.19 : Exemple d'agrégat intégrant des mots ayant plusieurs acceptions (musique/cuisine).

Supposons que nous ayons obtenu ce graphe à partir des requêtes utilisateurs suivantes :

? {chef, cuisine, piano, nettoyage} ? {musique, chef, piano, orchestre} ? {sol, piano, musique}

Supposons que la méthode permette de construire un agrégat AG contenant tous ces mots tel que :

Différentes acceptations des mots « piano », « sol » et dans une moindre mesure « chef » interviennent dans cet agrégat. Lors de l'évaluation de la cohérence sémantique de cet agrégat, la combinaison systématique en trios de tous les mots-clés dans l'agrégat génère un certain nombre de trios ayant une faible cohérence sémantique. En voici trois exemples :

Prenons un autre agrégat de mots issu du réseau AOL-17/04/2006, nommons cet agrégat Agr. Il est défini tel que :

Agr = {abiline, arunde, arundl, aubun, avalanche, b2600, car, cars, chevrolet, dealerships, electronic, fj40, fordsale, gaffn, hamptonroad, ignition, lexus, lynchb, maine, microwave, murrieta, outboard, parts, pax, selecti, ulster, uplander, used, usedfront, virgini, waterville}.

Cet agrégat a été construit notamment grâce aux requêtes utilisateurs suivantes :

la requête utilisateur « +used +car +pax » qui renvoie 284 000 sites : pax est une référence de pneu de marque Michelin et d'autres pièces détachées ;

la requête utilisateur « +used +car +abiline » qui renvoie 1 140 sites : abiline est un centre de vente et d'achat de pièces détachées ;

la requête utilisateur « +used +car +murietta » qui renvoie 17 100 sites : murrieta est un centre de réparation de véhicules.

Ces trois requêtes utilisateurs ont toutes des résultats situés dans la zone [C]. Cependant, le trio de mots issu de cet agrégat, utilisé comme requête dans la mesure de la cohérence sémantique, « +abiline +murietta +pax » ne retourne qu'un seul site ( search.AOL.com 2010) où « Abiline » devient un prénom, « Murietta » le nom d'une ville et « pax » le mot latin signifiant « paix ».

Pour mesurer les pertes de cohérence sémantique liées à cet aspect du problème et pour mieux connaître la valeur statistique de CSVC sur les trios de mots issus d'agrégats par rapport aux triades issues de requête, nous avons testé séparément les trios de mots et les triades. Afin de rester sur des espaces sémantiquement valides, notre test ne comprend que les agrégats de moins de 30 mots.

2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20 Triades de mots existantes au moins dans une recherche utilisateur et tirées d'agrégats de moins de 30 mots-clés

Trios de mots n'existants pas dans une recherche utilisateurs et tirés d'agrégats de moins de 30 mots-clés

Figure 4.20 : Comparaison des valeurs des CVSC des triades et trios issus d'agrégats de 3 à 29 mots-clés.

Tableau 4.10 : Comparaison des valeurs des CVSC des triades et trios issus d'agrégats de 3 à 29 mots-clés.

L'agrégat présenté dans l'exemple 2 n'a pas été soumis à ce test puisqu'il possède plus de 29 mots.

Les triades incluses dans les agrégats de moins de 30 mots obtiennent très logiquement, le score de 1. Les trios de mots (combinés depuis les agrégats de moins de 30 mots) qui n'ont jamais été utilisés dans une requête utilisateur présentent l'excellent score de 0.7.

Si l'agrégation crée bien une baisse du CVSC, celle-ci reste contenue au sein des agrégats de taille inférieure à 30 mots-clés.

Agrégats par la méthode de Rigidification Régulée Matériel et conditions d'évaluation

La suppression ou la non-intégration dans les agrégats de mots au sens faible (mots de liaison, déterminants, etc.) pour en maintenir la taille est généralement préférable à la suppression des mots possédant un sens fort. Pour déterminer les valeurs de Val-Min-CFL et de Val-Activ-CFL (cf. paragraphe 3.4), nous étudions et comparons les valeurs des liaisons et plus particulièrement de CFL (Coefficient de Fiabilité de Lien) de deux types de mots-clés :

10yo	anagram	etymology	idiom	niobium	rhodium	ulnar
11yo	arginine	euphemism	indium	palindrome	scopolamine	yttrium
12yo	babyshivid	femur	innuendo	palladium	selenium	zirconium
aabbccddee	Cadmium	fibula	kingpass	pthc	sternum
acrostic	carnitine	glutamine	lysine	ptsc	talus
adenine	clavicle	humerus	mandible	qqaazz	technetium
aldosterone	coccyx	hussyfan	mnemonic	r@ygold	tibia
ambigram	collagen	hyoscyamine	molybdenum	rhetoric	tyrosine

Pour fixer la valeur de Val-Min-CFL nous allons comparer la nature des liens des deux populations étudiées. Plus précisément nous allons comparer la valeur la plus faible de CFL sur les diades où un des mots de la liaison au moins est monosémique avec la même valeur quand un des mots au moins est dans la liste des mots vides.

Le but est de prendre une valeur suffisamment basse pour conserver les mots monosémiques dans les agrégats et une valeur suffisamment haute pour exclure au plus tôt les mots vides.

0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,1 0,11 0,12 13 0,14 0,15 16 0,17 0,18 0,19 0,2

u Au moins moins un un des des mots mots est dans dans la la liste liste des des mots mots monosémiqueinsignifiants

Au moins un des mots dans la liste des mots insignifiants u moins un des mots est dans la liste des mots monosém

Figure 4.21 : Comparaison de la distribution de la valeur minimale de CFL (Coefficient de Fiabilité de Lien) dans les diades incluant un mot monosémique et celles incluant un mot vide.

La valeur la plus basse de CFL pour les diades incluant un mot vide au moins est dans 90% des cas inférieure à 0.1% (cf. figure 4.21). D'un autre côté, choisir cette valeur comme valeur de départ de la boucle principale pour le démarrage du paramètre Val-Min-CFL nous permet de conserver 75% des liens incluant un mot monosémique.

Pour déterminer la valeur de départ de Val-Activ-CFL dans la boucle principale nous comparons la valeur maximale des deux valeurs CFL des diades incluant soit un mot monosémique soit un mot vide au moins.

Figure 4.22 : Comparaison de la distribution de la valeur maximale de CFL (Coefficient de Fiabilité de Lien) dans les diades incluant un mot monosémique et celles incluant un mot vide.

S'il n'y pas de différence notable entre la distribution des diades incluant un mot monosémique et celles incluant un mot vide (cf. image 4.19), on peut affirmer qu'en-dessous de 4% le nombre de liaisons est extrêmement faible et ceci pour les deux familles de diades. Aussi nous utiliserons cette valeur pour valeur de départ de notre expérimentation.

Nous choisissons finalement et arbitrairement 20 « pas » pour la boucle principale et 20 « pas » pour la boucle fine. Au-delà de 50 « pas » l'augmentation du nombre semble avoir un impact très minime dans la construction des agrégats. Cependant, ce nombre de 50 réclame un temps CPU trop important. Le choix du nombre de 20 nous est apparu comme un compromis raisonnable.

Le moteur de recherche utilisé dans cette expérimentation est bing.com. Nous modifions le moteur utilisé car AOL.com détecte le fait que la tâche est robotisée et refuse de nous répondre.

4.4.3 Rigidification Régulée sur le réseau « 100 mots dans AOL » avec validation par MCCVS

La méthode de Rigidification Régulée nous a permis de créer, sur le réseau « 100 mots dans AOL » : 2196 agrégats de 3 à 29 éléments. Le nombre moyen de mots par agrégat est de 4.6.

Figure 4.23 : Distribution du nombre de mots-clés par agrégat sur le réseau « 100 mots dans AOL ».

La méthode possède une capacité importante à rejeter les mots vides. Si dans certains cas particuliers ces mots vides sont utiles, leur éjection est souvent nécessaire pour éviter la création d'agrégats de trop grande taille. Nous ne retrouvons que 62 mots-clés de la liste http://snowball.tartarus.org/algorithms/english/stop.txt qui en contient 220 sur les 1090 mots-clés utilisés dans les agrégats.

En suivant la méthode MCCVS, nous créons aléatoirement des trios de mots et comparons le nombre de sites retournés par un moteur de recherche avec des triades de mots ayant été utilisées conjointement dans une requête utilisateur au moins.

De la nécessité de filtrer les mots avant de les envoyer dans un moteur de recherche

Nous travaillons ici sur un réseau représentant le fichier de log d'AOL dans son ensemble. Les mots utilisés une fois ou deux peuvent être considérés, le plus souvent comme des erreurs potentielles. Pourtant, que ce soit dans le choix aléatoire d'un mot pour créer un trio aléatoire ou le test d'un agrégat, ce mot n'est pas utilisé en fonction de son usage par les utilisateurs mais par le simple fait de sa présence. Ainsi, dans la création d'un trio aléatoire, un mot utilisé une fois ou très rarement va avoir autant de chance d'être sélectionné qu'un mot utilisé des centaines de milliers de fois.

De même, les mots vides présents dans le réseau peuvent aussi se retrouver combinés. Dans ce cas, le moteur de recherche renvoie un nombre extrêmement élevé de sites trouvés. Par exemple, pour la requête « +the +and +or », big.com retourne 3 860 000 000 sites trouvés ( big.com juillet 2011).

Dans le test des agrégats où l'on combine tous les mots en trios, un mot rare « pèse » aussi de manière exagérée. Supposons qu'un mot rare soit présent dans un agrégat de 10 mots, on le trouvera dans 36 des combinaisons testées ; de même, dans un agrégat de 20 mots il sera présent dans 171 combinaisons. Si ce mot est une erreur de frappe, comme c'est le cas pour la plupart de ces mots rares, il conduit le moteur de recherche à retourner très peu de sites voire aucun sur les 171 requêtes. Alors que dans le log d'AOL ce mot n'est présent que dans une seule requête sur plus de 22 millions, il intervient de manière beaucoup trop importante dans la validation des agrégats.

Donnons ici pour exemple un agrégat Ag créé par la méthode de Rigidification Régulée sur le réseau « 100 mots dans AOL » (les valeurs entre parenthèses sont le nombre de requêtes utilisant le terme) :

Les mots « diapra » et « demonstraion » n'existent pas et nous pouvons imaginer que ce sont des erreurs.

Combinaisons	Nombres de sites retournés par bing.com (décembre 2010)
+system +digestive +diapra	0
+system +digestive +demonstraion	14
+system +diapra +demonstraion	0
+digestive +diapra +demonstraion	0

Tableau 4.12 : Exemple de combinaisons de mots incluant des mots à faible usage dans des recherches.

La solution pourrait être de supprimer simplement les mots de faible utilisation et les mots vides du graphe à tester. Mais si nous voulons préserver la capacité à détecter de nouvelles communautés d'utilisateurs par l'usage de nouveaux mots et la capacité à créer des agrégats basés sur l'utilisation conjointe de mots vides, il nous faut conserver ces mots dans le graphe étudié.

Ces problèmes ont moins de conséquence dans l'étude des réseaux AOL-17/04/2006 et AOL-17/03/2006. En effet, la part de mots rarement ou très rarement utilisés (et étant des erreurs) ne peut qu'augmenter avec la taille du fichier de log. De plus, dans l'étude de ces réseaux, avec la méthode de Rigidification Simple nous filtrons préalablement les mots vides qui n'étaient donc pas présents ni dans les agrégats ni dans les requêtes de test. La méthode de Rigidification Régulée que nous évaluons ici a permis de les conserver pour les raisons évoquées plus haut.

Afin de créer un ensemble valide et d'éviter des combinaisons surpondérées pour le test d'évaluation sémantique, sont exclus de l'évaluation sémantique les mots très utilisés et les mots très peu utilisés.

http://snowball.tartarus.org/algorithms/english/stop.txt. Bien que peu nombreux, ils représentent 10.06 % des usages (ensemble des mots multipliés par le nombre de requêtes dans lesquels le mot est présent, ces mots vides étant généralement les plus usités).

Les mots de faible utilisation sont écartés en fonction de leur valeur globale d'utilisation (ensemble des mots multipliés par le nombre de requêtes dans lesquelles le mot est présent) jusqu'à obtenir 10% des usages. Nous retirerons donc les mots qui ont été utilisés moins de 94 fois. Ainsi, nous ne conservons ni les mots définis comme vides, ni les termes de faible utilisation (présents dans moins de 94 requêtes) de façon à travailler sur des mots correspondant à 80% des usages.

Bien sûr, la démarche est la même dans les trois systèmes de génération de requêtes. Seuls les agrégats ayant au moins trois mots après filtrage sont considérés comme valides pour être évalués.

Avec la méthode MCSVS, il s'agit de mesurer et comparer la distribution du nombre de sites retournés sur un échantillon de 100 000 requêtes faites de trios de mots aléatoires avec 100 000 triades issues de requêtes utilisateurs. Les mots sont ici ceux définis dans le paragraphe « Définition du filtre préalable avant l'évaluation sémantique ».

2^9 2^10 2^11 2^12 2^13 2^14 2^15 2^16 2^17 2^18 2^19 2^20 2^21 2^22 2^23 2^24 2^25 2^26 2^27 2^28 2^29 2^30 2^31 >2^31

Figure 4.24 : Comparaison des réponses aux requêtes susceptibles d'être les plus éloignées sémantiquement (cf. 4.3.1) et détermination des zones à forte divergence.

L'observation des trois courbes nous permet de détecter trois zones : ? la zone « A » très accidentée ;

? la zone « C » où les courbes sont bien différenciées et lisses. Cette dernière caractéristique confirme l'aspect non accidentel des mesures.

Triades de mots filtrées présentes dans une requête d'utilisateur Trios de mots filtrés issus des agrégats

Figure 4.25 : Représentation graphique de la zone « C » de validation sémantique sur les trois courbes représentant les trois sources de requêtes.

où AR définit l'aire de l'histogramme des triades et où les trois mots sont conjointement présents dans une requête utilisateur au moins,

où AA définit l'aire de l'histogramme des trios de mots générés aléatoirement,

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

4.4.3 Rigidification Régulée sur le réseau « 100 mots dans AOL » avec validation par MCCVS