WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Chapitre 4.

Expérimentations, validations

sémantiques et résultats de mesure

4.1 Introduction

Dans ce travail de recherche la phase d'expérimentation s'est révélée particulièrement longue en raison de la taille des graphes considérés.

Chaque méthode de regroupement proposée a été testée par des méthodes de validation sémantique différentes et sur plusieurs réseaux de mots. En effet, pour accéder à certains systèmes de validation, il a fallu accepter de ne pas toujours choisir le réseau de mots. Ainsi, pour s'insérer dans un « challenge » avec une validation manuelle, le réseau de mots dit E-donkey-5-mois a été un support imposé.

En modifiant les méthodes pour prendre en compte des réseaux sans aucune opération préalable (suppression des mots vides, mots très utilisés, ...), les réseaux choisis ont aussi évolué pour aller vers des tailles plus importantes. Ceci a permis de mesurer les capacités des méthodes que nous avons mises au point, à créer des agrégats sémantiquement cohérents dans des méga-graphes.

4.2 Présentation des réseaux testés

Les algorithmes ont été testés sur six réseaux. Chacun fera l'objet d'une description plus détaillée quant à son contenu et à la façon dont il a été obtenu.

4.2 : Présentation des réseaux testés 122

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Les trois premiers réseaux sont tous issus du fichier de log d'AOL qui représente un extrait des requêtes de son moteur de recherche pour les mois d'avril et mai 2006.

On trouve parmi ceux-ci, deux réseaux filtrés (suppression de mots à faible sens) correspondant chacun à un jour de log :

1) AOL 17/04/2006 ;

2) AOL 17/03/2006.

Le troisième graphe étudié est le réseau complet et non filtré des deux mois de log d'AOL. Face au gigantisme de ce graphe nous avons limité l'étude aux agrégats contenant un des mots cibles. Ce réseau est nommé :

3) 100 mots dans AOL.

Les deux réseaux suivants sont constitués de mots tapés dans les moteurs de recherche de systèmes d'échanges « peer to peer ». On trouve :

4) E-donkey-10 semaine ;

5) E-donkey-5-mois.

Enfin le dernier réseau est issu d'un programme de campagne de validation de moteurs de recherche. Il s'agit du réseau :

6) TREC-Eval-5.

4.2.1 Les réseaux AOL

Le matériel : le « log d'AOL »

Un extrait des fichiers de log du moteur de recherche AOL.com est notre support. Cet extrait intègre trente-trois millions de requêtes effectuées du 1er mars 2006 au 30 avril 2006. Ces requêtes sont principalement rédigées en anglais. La structure du fichier intègre un identifiant, la date et l'heure de la recherche, le site éventuellement sélectionné ainsi que son rang (cf. figure 4.1).

AnonID

Query

QueryTime

temRanck

ClickURL

142

rentdirect.com

2006-03-01 07:17:12

 
 

142

www.prescriptionfortime.com

2006-03-12 12:31:06

 
 

142

staple.com

2006-03-17 21:19:29

 
 

142

staple.com

2006-03-17 21:19:45

 
 

142

www.newyorklawyersite.com

2006-03-18 08:02:58

 
 

142

www.newyorklawyersite.com

2006-03-18 08:03:09

 
 

142

westchester.gov

2006-03-20 03:55:57

1

http://www.westchestergov.com

142

space.comhttp

2006-03-24 20:51:24

 
 

142

dfdf

2006-03-24 22:23:07

 
 

142

dfdf

2006-03-24 22:23:14

 
 

142

vaniqa.comh

2006-03-25 23:27:12

 
 

142

www.collegeucla.edu

2006-04-03 21:12:14

 
 

Figure 4.1 : Extrait du fichier de log AOL.com.

4.2 : Présentation des réseaux testés 123

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Ce fichier est mis à la disposition du public par la société AOL à des fins d'étude. Il est disponible sur le site http://gregsadetsky.com/aol-data.

Le réseau « AOL-17/04/2006 »

Afin de travailler sur un échantillon représentatif et néanmoins manipulable, nous avons fait le choix de limiter celui-ci à l'ensemble des requêtes d'une journée. La journée de référence prise aléatoirement est celle du 17 avril 2006.

Sur les requêtes de cette journée nous avons appliqué plusieurs règles :

1) Les mots-clés sont définis comme un ensemble de lettres sans espace. Tout espace est donc lu comme un séparateur de mots-clés.

2) Les guillemets ainsi que tous les éléments de ponctuation ont été ignorés et remplacés par des espaces.

3) Seuls les mots-clés utilisés dans une requête ayant deux mots et plus ont été conservés.

4) Seuls les mots possédant plus d'une lettre ont été conservés.

5) Certains mots non significatifs ont aussi été écartés de l'étude (cf. tableau 4.1).

.com

at be

Does

having

http if

l.

off

she

this

when

www.

al

been

dont

he

Il

la

on

so

to

where

you

all

by

el

her

in

like my

our

st

too

who

your

alt

can

elle for

here

is

ne

ours

st.

us

why

yourself

and

com

from

his

it keep

no

out

than

was

will

 

are

de

had

how

 

of

re

th

we

with

 

as

do

 

href

 
 
 

their

what

www

 

Tableau 4.1 : Liste des mots exclus de l'étude en tant que mots non significatifs

? Nous avons ensuite écarté de l'étude une liste de mots considérés comme non significatifs car sur-utilisés (cf. tableau 4.2). Afin d'éviter de manipuler des mots au sens galvaudé par une trop grande utilisation, nous avons décidé de ne pas considérer les mots ayant été utilisés dans plus de 1000 recherches. Ecarter ces mots qui sont par définition les moins discriminants nous permet d'espérer éviter la construction de méga-agrégats centrés sur ces mots-clés.

Le nombre total de recherches étudiées dans l'échantillon de la journée du 17 avril 2006 est de plus de 200 000. Ces mots sont au nombre de 14 (cf. tableau 4.2) sur 51994 mots-clés étudiés soit 0.027 % de l'échantillon.

Mots-clés

Nombre de requête

Mots-clés

Nombre de requête

Mots-clés

Nombre de requête

sale

1011

tax

1458

county

1884

york

1071

state

1532

pictures

2020

bank

1083

school

1539

new

2413

home

1139

sex

1560

free

3956

city

1273

lyrics

1561

 
 

Tableau 4.2 Mots-clés exclus car utilisés dans plus de 1000 requêtes le 17/04/06.

Après avoir appliqué ces différents « filtres », l'objet de l'étude se présente comme un ensemble de : 51980 mots-clés utilisés dans 200646 requêtes.

4.2 : Présentation des réseaux testés 124

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Dans ce réseau qui n'est pas un méga-graphe, l'objectif est de construire l'ensemble des agrégats possibles.

Le réseau « AOL-17/03/2006 »

Le réseau AOL-17/03/2006 est créé avec les mêmes règles que le réseau AOL-17/04/2006, la seule modification étant le filtrage sur la date des requêtes. Il contient 48568 mots-clés et 197000 requêtes.

Dans ce réseau l'objectif est aussi de construire l'ensemble des agrégats possibles.

Le réseau «100 mots dans AOL »

Ce réseau est constitué de l'ensemble du réseau du fichier log d'AOL des deux mois dans son entier et sans aucun filtrage. Le réseau est composé de 1 294 245 mots-clés ou noeuds et 5 556 101 de liens. Le nombre de requêtes considérées est de 21 059 661.

Son périmètre :

Sur ce méga-graphe, nous ne sommes pas en mesure de construire et ensuite de valider l'ensemble des agrégats possibles dans un temps raisonnable. Nous avons donc choisi 100 mots pour lesquels nous créerons tous les agrégats les incluant.

Les cent mots sélectionnés sont les dix premiers noms (propres ou communs) de dix oeuvres écrites de références. Ces oeuvres sont de nature différente. On peut les classer en cinq catégories :

1) Deux oeuvres fondamentales de notre civilisation :

a. la bible,

b. la république de Platon.

2) Deux recherches scientifiques :

a. « Le livre des révolutions » de Copernic,

b. « De la relativité spéciale et générale » d'Albert Einstein.

3) Deux oeuvres artistiques :

a. « Your honesty » de Madona,

b. « Roméo et Juliette » de W. Shakespeare.

4) Un site web : Linux.org

5) Trois reportages sur des conflits (cf. tableau 4.3) :

a. Iran-Irack war,

b. Russia et Georgia,

c. Milosevic found dead.

4.2 : Présentation des réseaux testés 125

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Livres / sites Internet / oeuvres artistiques

Mots

The Bible

book moses genesis begining god heaven earth form void darkness

Romeo and Juliet (W.shakespeare)

households dignity verona scene break mutiny civil blood hands foes

The republic (Plato)

socrates glaucon yesterday piraeus ariston prayers goddess manner festival thing

Books of revolutions (Copernic)

Holy father people revolutions spheres universe

movement globe views stage

Your Honesty (Madona, 2003)

honesty choice talk love voice eyes closer baby crazy kind

Relativity special and general (Albert Einstein)

insight theory relativity readers scientific

philosophical point view apparatus physics

he ran- ra ar the o itics of a ression (Farhang

Rajaee - 1993)

Iraqui army border Kuwait August city oil persian gulf offencive

Linux.org (march 2008)

Linux Unix operating system [Torvalds]* linus

assistance developers world gnu source

http://threatswatch.org/commentary/2006/04/russia-

russia georgia war middle east georgia verge wines moldovan rack

and-georgia-ready-for-w/ Russia and Georgia Ready

For War : (Guest Contributor, Craig Martelle April 21, 2006)

http://news.bbc.co.uk/2/hi/europe/4796470.stm

Yugoslav President Slobodan Milosevic detention

centre Hague tribunal autopsy suicide

Milosevic found dead in his cell (bbc news-11 March 2006)

Tableau 4.3 : La liste des 100 mots utilisés pour créer les agrégats (* le mot «Torvalds» est ignoré car il n'est pas présent dans le fichier d'AOL.).

L'idée est de partir d'un échantillon de mots issus d'espaces sémantiques différents permettant de créer des agrégats bien distincts. Toutefois, certains sujets portent sur la même thématique (sujets 1, 2 et 5) de façon à tester la capacité des méthodes d'agrégation sur des espaces sémantiques proches. Enfin, le fichier d'AOL étant essentiellement en anglais, c'est dans cette langue que les cent mots ont été choisis.

précédent sommaire suivant