WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Informatique et Télécommunications

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 4.

Expérimentations, validations

sémantiques et résultats de mesure

4.1 Introduction

Dans ce travail de recherche la phase d'expérimentation s'est révélée particulièrement longue en raison de la taille des graphes considérés.

Chaque méthode de regroupement proposée a été testée par des méthodes de validation sémantique différentes et sur plusieurs réseaux de mots. En effet, pour accéder à certains systèmes de validation, il a fallu accepter de ne pas toujours choisir le réseau de mots. Ainsi, pour s'insérer dans un « challenge » avec une validation manuelle, le réseau de mots dit E-donkey-5-mois a été un support imposé.

En modifiant les méthodes pour prendre en compte des réseaux sans aucune opération préalable (suppression des mots vides, mots très utilisés, ...), les réseaux choisis ont aussi évolué pour aller vers des tailles plus importantes. Ceci a permis de mesurer les capacités des méthodes que nous avons mises au point, à créer des agrégats sémantiquement cohérents dans des méga-graphes.

4.2 Présentation des réseaux testés

Les algorithmes ont été testés sur six réseaux. Chacun fera l'objet d'une description plus détaillée quant à son contenu et à la façon dont il a été obtenu.

4.2 : Présentation des réseaux testés 122

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Les trois premiers réseaux sont tous issus du fichier de log d'AOL qui représente un extrait des requêtes de son moteur de recherche pour les mois d'avril et mai 2006.

On trouve parmi ceux-ci, deux réseaux filtrés (suppression de mots à faible sens) correspondant chacun à un jour de log :

1) AOL 17/04/2006 ;

2) AOL 17/03/2006.

Le troisième graphe étudié est le réseau complet et non filtré des deux mois de log d'AOL. Face au gigantisme de ce graphe nous avons limité l'étude aux agrégats contenant un des mots cibles. Ce réseau est nommé :

3) 100 mots dans AOL.

Les deux réseaux suivants sont constitués de mots tapés dans les moteurs de recherche de systèmes d'échanges « peer to peer ». On trouve :

4) E-donkey-10 semaine ;

5) E-donkey-5-mois.

Enfin le dernier réseau est issu d'un programme de campagne de validation de moteurs de recherche. Il s'agit du réseau :

6) TREC-Eval-5.

4.2.1 Les réseaux AOL

Le matériel : le « log d'AOL »

Un extrait des fichiers de log du moteur de recherche AOL.com est notre support. Cet extrait intègre trente-trois millions de requêtes effectuées du 1^er mars 2006 au 30 avril 2006. Ces requêtes sont principalement rédigées en anglais. La structure du fichier intègre un identifiant, la date et l'heure de la recherche, le site éventuellement sélectionné ainsi que son rang (cf. figure 4.1).

AnonID	Query	QueryTime	temRanck	ClickURL
142	rentdirect.com	2006-03-01 07:17:12
142	www.prescriptionfortime.com	2006-03-12 12:31:06
142	staple.com	2006-03-17 21:19:29
142	staple.com	2006-03-17 21:19:45
142	www.newyorklawyersite.com	2006-03-18 08:02:58
142	www.newyorklawyersite.com	2006-03-18 08:03:09
142	westchester.gov	2006-03-20 03:55:57	1	http://www.westchestergov.com
142	space.comhttp	2006-03-24 20:51:24
142	dfdf	2006-03-24 22:23:07
142	dfdf	2006-03-24 22:23:14
142	vaniqa.comh	2006-03-25 23:27:12
142	www.collegeucla.edu	2006-04-03 21:12:14

Figure 4.1 : Extrait du fichier de log AOL.com.

4.2 : Présentation des réseaux testés 123

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Ce fichier est mis à la disposition du public par la société AOL à des fins d'étude. Il est disponible sur le site http://gregsadetsky.com/aol-data.

Le réseau « AOL-17/04/2006 »

Afin de travailler sur un échantillon représentatif et néanmoins manipulable, nous avons fait le choix de limiter celui-ci à l'ensemble des requêtes d'une journée. La journée de référence prise aléatoirement est celle du 17 avril 2006.

Sur les requêtes de cette journée nous avons appliqué plusieurs règles :

1) Les mots-clés sont définis comme un ensemble de lettres sans espace. Tout espace est donc lu comme un séparateur de mots-clés.

2) Les guillemets ainsi que tous les éléments de ponctuation ont été ignorés et remplacés par des espaces.

3) Seuls les mots-clés utilisés dans une requête ayant deux mots et plus ont été conservés.

4) Seuls les mots possédant plus d'une lettre ont été conservés.

5) Certains mots non significatifs ont aussi été écartés de l'étude (cf. tableau 4.1).

.com	at be	Does	having	http if	l.	off	she	this	when	www.
al	been	dont	he	Il	la	on	so	to	where	you
all	by	el	her	in	like my	our	st	too	who	your
alt	can	elle for	here	is	ne	ours	st.	us	why	yourself
and	com	from	his	it keep	no	out	than	was	will
are	de	had	how		of	re	th	we	with
as	do		href				their	what	www

Tableau 4.1 : Liste des mots exclus de l'étude en tant que mots non significatifs

? Nous avons ensuite écarté de l'étude une liste de mots considérés comme non significatifs car sur-utilisés (cf. tableau 4.2). Afin d'éviter de manipuler des mots au sens galvaudé par une trop grande utilisation, nous avons décidé de ne pas considérer les mots ayant été utilisés dans plus de 1000 recherches. Ecarter ces mots qui sont par définition les moins discriminants nous permet d'espérer éviter la construction de méga-agrégats centrés sur ces mots-clés.

Le nombre total de recherches étudiées dans l'échantillon de la journée du 17 avril 2006 est de plus de 200 000. Ces mots sont au nombre de 14 (cf. tableau 4.2) sur 51994 mots-clés étudiés soit 0.027 % de l'échantillon.

Mots-clés	Nombre de requête	Mots-clés	Nombre de requête	Mots-clés	Nombre de requête
sale	1011	tax	1458	county	1884
york	1071	state	1532	pictures	2020
bank	1083	school	1539	new	2413
home	1139	sex	1560	free	3956
city	1273	lyrics	1561

Tableau 4.2 Mots-clés exclus car utilisés dans plus de 1000 requêtes le 17/04/06.

Après avoir appliqué ces différents « filtres », l'objet de l'étude se présente comme un ensemble de : 51980 mots-clés utilisés dans 200646 requêtes.

4.2 : Présentation des réseaux testés 124

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Dans ce réseau qui n'est pas un méga-graphe, l'objectif est de construire l'ensemble des agrégats possibles.

Le réseau « AOL-17/03/2006 »

Le réseau AOL-17/03/2006 est créé avec les mêmes règles que le réseau AOL-17/04/2006, la seule modification étant le filtrage sur la date des requêtes. Il contient 48568 mots-clés et 197000 requêtes.

Dans ce réseau l'objectif est aussi de construire l'ensemble des agrégats possibles.

Le réseau «100 mots dans AOL »

Ce réseau est constitué de l'ensemble du réseau du fichier log d'AOL des deux mois dans son entier et sans aucun filtrage. Le réseau est composé de 1 294 245 mots-clés ou noeuds et 5 556 101 de liens. Le nombre de requêtes considérées est de 21 059 661.

Son périmètre :

Sur ce méga-graphe, nous ne sommes pas en mesure de construire et ensuite de valider l'ensemble des agrégats possibles dans un temps raisonnable. Nous avons donc choisi 100 mots pour lesquels nous créerons tous les agrégats les incluant.

Les cent mots sélectionnés sont les dix premiers noms (propres ou communs) de dix oeuvres écrites de références. Ces oeuvres sont de nature différente. On peut les classer en cinq catégories :

1) Deux oeuvres fondamentales de notre civilisation :

a. la bible,

b. la république de Platon.

2) Deux recherches scientifiques :

a. « Le livre des révolutions » de Copernic,

b. « De la relativité spéciale et générale » d'Albert Einstein.

3) Deux oeuvres artistiques :

a. « Your honesty » de Madona,

b. « Roméo et Juliette » de W. Shakespeare.

4) Un site web : Linux.org

5) Trois reportages sur des conflits (cf. tableau 4.3) :

a. Iran-Irack war,

b. Russia et Georgia,

c. Milosevic found dead.

4.2 : Présentation des réseaux testés 125

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Livres / sites Internet / oeuvres artistiques	Mots
The Bible	book moses genesis begining god heaven earth form void darkness
Romeo and Juliet (W.shakespeare)	households dignity verona scene break mutiny civil blood hands foes
The republic (Plato)	socrates glaucon yesterday piraeus ariston prayers goddess manner festival thing
Books of revolutions (Copernic)	Holy father people revolutions spheres universe movement globe views stage
Your Honesty (Madona, 2003)	honesty choice talk love voice eyes closer baby crazy kind
Relativity special and general (Albert Einstein)	insight theory relativity readers scientific philosophical point view apparatus physics
he ran- ra ar the o itics of a ression (Farhang Rajaee - 1993)	Iraqui army border Kuwait August city oil persian gulf offencive
Linux.org (march 2008)	Linux Unix operating system [Torvalds]* linus assistance developers world gnu source
http://threatswatch.org/commentary/2006/04/russia-	russia georgia war middle east georgia verge wines moldovan rack
and-georgia-ready-for-w/ Russia and Georgia Ready
For War : (Guest Contributor, Craig Martelle April 21, 2006)
http://news.bbc.co.uk/2/hi/europe/4796470.stm	Yugoslav President Slobodan Milosevic detention centre Hague tribunal autopsy suicide
Milosevic found dead in his cell (bbc news-11 March 2006)

Tableau 4.3 : La liste des 100 mots utilisés pour créer les agrégats (* le mot «Torvalds» est ignoré car il n'est pas présent dans le fichier d'AOL.).

L'idée est de partir d'un échantillon de mots issus d'espaces sémantiques différents permettant de créer des agrégats bien distincts. Toutefois, certains sujets portent sur la même thématique (sujets 1, 2 et 5) de façon à tester la capacité des méthodes d'agrégation sur des espaces sémantiques proches. Enfin, le fichier d'AOL étant essentiellement en anglais, c'est dans cette langue que les cent mots ont été choisis.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Entre deux mots il faut choisir le moindre" Paul Valery