Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

L'expert valide globalement que la méthode d'agrégation possède une capacité à créer des agrégats « présentant une cohérence sémantique ».

Cependant cette méthode de validation manuelle est décevante. Car la lecture des agrégats ne permet pas d'obtenir de commentaires précis. Si les commentaires de l'expert sont positifs (donc encourageants), ils ne nous guident en aucune façon pour faire évoluer les algorithmes proposés.

La récupération de nouveaux mots potentiellement utilisés par des pédophiles pose aussi la limite du travail de l'expert. Comment peut-il évaluer un système dont les résultats sont pour lui une nouvelle information dont il ne connait pas, à fortiori, la validité.

4.4 : Résultats des regroupements et validation sémantique 175

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

4.4.6 Méthode de Rigidification Régulée sur réseau TREC-Eval-5 et validation par méthode TREC-Eval

Paramétrage et particularité de l'algorithme

Le but, dans cette expérimentation, est de mesurer la capacité d'un agrégat à être utilisé pour compléter des requêtes utilisateurs. Une question se pose : dans les agrégats créés dans le cadre de cette expérimentation peut-on trouver des mots capables d'enrichir des requêtes ? Les mots se situant à la limite de la cohérence sémantique de l'agrégat vont fortement « bruiter » la requête et sans aucun doute faire baisser le niveau de qualité des réponses.

Pour conserver un coefficient sémantique élevé au sein des agrégats nous choisissons de limiter le nombre maximal de mots dans un agrégat à 30 mots. C'est là le premier seuil « d'écroulement » de la cohérence sémantique des agrégats (cf. paragraphe 4.4.2). Nous espérons ici réduire dans les requêtes le bruit lié à l'introduction de nouveaux mots.

Valeurs de départ de Val-Min-CFL et de Val-Activ-CFL

Le faible nombre de mots ainsi que la faible taille des échantillons ne nous permettent pas de faire une étude statistique sur le comportement des mots vides et monosémiques. Après plusieurs essais fructueux nous optons pour des valeurs de départ de 3% pour Val-Min-CFL et de 10% pour Val-Activ-CFL.

Résultats de la méthode d'agrégation de Rigidification Régulée

184 agrégats sont créés. Ils sont ensuite liés avec un ou plusieurs des 199 Topics (requêtes utilisateurs dans TREC-Eval) par la régle suivante : 1/4 des mots présents dans le Topic sont présents dans l'agrégat, avec au moins un mot.

121 Topics sur 199 inclus dans l'expérimentation sont alors liés avec au moins un agrégat.

Figure 4.32 : Répartition des agrégats par nombre de mots-clés.

4.4 : Résultats des regroupements et validation sémantique 176

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Estimation de la valeur sémantique des agrégats

Nous utilisons quatre types de requête :

1. Un Topic est une requête effectuée par un utilisateur.

2. Les agrégats seuls (incluant des mots du Topic) : ils sont utilisés en tant requête.

3. les Topics enrichis : par l'ajout de mots issus d'agrégats (agrégats auxquels les mots du Topic initial appartiennent).

4. Les Topics enrichis avec surpondération des mots initiaux du Topic : Les Topics sont enrichis par l'adjonction de mots issus d'agrégats (agrégats auxquels les mots du Topic initial appartiennent) mais les mots initiaux du Topic sont surpondérés dans la recherche.

Afin d'illustrer la nature des différentes requêtes manipulées, nous présentons dans le tableau 4.14 plusieurs exemples pour les quatre types de requêtes.

QUI	Topic	Agrégat	Topic enrichi	Topic enrichi avec surpondération des mots du Topic
24	New Medical Technology	and/or diseases human inherited medical potential	and/or diseases human inherited medical potential new technology	and/or diseases human inherited medical^2 potential new^2 technology^2
24	New Medical Technology	computer-aided diagnosis medical	computer-aided diagnosis medical new technologie	computer-aided diagnosis medical^2 new^2 technologie^2
24	New Medical Technology	controlling high technology transfer	controlling high technology transfer new medical	controlling high technology^2 transfer new^2 medical^2
25	Aftermath of Chernobyl	aftermath loss revenue televangelist	aftermath loss revenue televangelist of chernobyl	aftermath^2 loss revenue televangelist of^2 chernobyl^2
25	Aftermath of Chernobyl	accident chernobyl contain results	accident chernobyl contain results aftermath of	accident chernobyl^2 contain results aftermath^2 of^2

Table 4.14 :Exemple de requêtes constituées de Topics, d'agrégats, de Topics enrichis et de Topic enrichis avec surpondération.

QID	M.A.P. obtenue par le Topic	M.A.P. obtenue par l'aggregate	M.A.P. obtenue par le Topic enrichi des mots de l'agrégat	M.A.P. obtenue par le Topic enrichi des mots de l'agrégat avec surpondération des mots du Topic
24	0.0025	0.0090	0.0148	0.0159
24	0.0025	0.0010	0.0002	0.0005
24	0.0025	0.0000	0.0000	0.0008
25	0.0294	0.0000	0.0073	0.0283
25	0.0294	0.0399	0.0311	0.0304

Table 4.15 : M.A.P. pour les Topics, agrégats et Topics enrichis par l'agrégat, de Topic enrichis et de Topic enrichis avec surpondération des mots du Topic.

Sur ces 121 Topics, l'utilisation des agrégats, des Topics enrichis par les agrégats ou encore des Topics enrichis par les agrégats en augmentant le poids des mots des Topics nous a permis d'améliorer ou de maintenir la M.A.P. dans 76 cas. La M.A.P. a même été améliorée

4.4 : Résultats des regroupements et validation sémantique 177

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

dans 67 cas, soit dans 55% des cas. Dans le cas où plusieurs agrégats sont liés à un Topic, nous avons comparé le résultat du M.A.P. du Topic seul au meilleur des résultats.

Le seul fait que l'adjonction de mots nous permet de garder une valeur de M.A.P. équivalente est déjà un succès. En effet, cela signifie que les mots ajoutés ne viennent pas « brouiller » la requête. En ajoutant un mot même sémantiquement proche nous introduisons la possibilité de ramener des documents qui peuvent porter sur des thèmes divergents. N'oublions pas que nous ne cherchons pas ici à définir un système d'amélioration de requête, mais à déterminer si nos agrégats ont une certaine validité sémantique. Si la valeur de M.A.P. est simplement conservée cela signifie que les mots ajoutés n'ont pas « bruité » notre requête et qu'ils sont bien inclus dans un agrégat possédant une forte cohérence sémantique.

Figure 4.33 : Répartition des meilleurs résultats pour la valeur M.A.P. pour les 4 catégories de requêtes dans l'expérimentation TREC-Eval.

Les Topics simples (requêtes utilisateurs) ne sont plus efficaces que les Topics enrichis ou les agrégats utilisés comme requête ou encore les agrégats seuls que dans 38% des cas. C'est un résultat extrêmement positif.

Si nous comparons les moyennes des valeurs de M.A.P améliorées selon les 4 types de requêtes nous remarquons (pour les Topics améliorés) que :

? les agrégats seuls améliorent en moyenne la M.A.P. de 116% mais uniquement pour 21% des requêtes ;

4.4 : Résultats des regroupements et validation sémantique 178

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

? les Topics + agrégats améliorent encore la M.A.P. (137%) mais pour une part moins importante (seulement 12%) des requêtes ;

? Les Topics + agrégats avec surpondération des mots de l'agrégat améliorent la M.A.P. plus souvent (67%) mais moins fortement (65%) .

Contenu de la requête	Moyenne de l'amélioration	% des requêtes améliorées
Agrégat seul	116%	21%
Topic + Agrégat	137%	12%
Topic + Agrégat avec mots du Topic surpondérés	65%	67%

Table 4.16 : Répartition de l'amélioration de la valeur M.A.P. par type de requête.

Analyse des résultats

? l'agrégat seul : nous remarquons deux scénarios qui vont provoquer une nette amélioration (116% en moyenne) :

o Dans le premier scénario, l'agrégat qui est utilisé comme élément de requête ne contient qu'un seul mot du Topic. L'agrégat est alors décalé sémantiquement du Topic. Il est cependant en réalité plus proche de la véritable thématique de la recherche et les résultats sont meilleurs.

o Dans le deuxième cas, l'agrégat contient plusieurs mots du Topic. Dans ce cas les mots ajoutés ont permis de préciser la thématique. Nous nous rapprochons alors du type de requête Topic + agrégats, même si tous les mots de la requête ne sont pas présents.

? Topic + agrégat : les mots du Topic sont tous présents. L'agrégat intervient toujours en précisant la requête. Quand cela fonctionne les améliorations sont très importantes (137%) et on obtient des scores de M.A.P. très élevés. Cependant le risque de « bruiter » la requête en introduisant des mots fait que la réussite est plus rare.

? Topic + agrégat avec mots du Topic surpondérés : le but est de baisser le « bruit » introduit par des mots vides ou moins spécifiques tout en profitant des mots qui vont « compléter la requête ». Pour cela, les mots du Topic sont surpondérés. L'amélioration est alors plus fréquente mais moins importante, ce qui est logique, le poids de l'enrichissement est plus faible donc le risque moins important.

précédent sommaire suivant

"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..." Friedrich Hayek (1899-1992) en 1984