WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

V. Dernière justification...

La dernière justification à la mise en oeuvre de tels outils de rencontre est simplement le plaisir d'échanger en instantané sur un intérêt commun. Le plaisir qui est celui de partager avec une intelligence humaine, vivante et interactive est aussi celui de la poésie de la rencontre d'un mot dit, entendu, écrit ou lu par l'autre et du moment présent, moment qui n'est déjà plus, et dont l'instantanéité rejoint le mystère de la vie.

I. Contexte et motivation 23

Introduction générale

Introduction générale

I. Contexte et motivation

En 2010 plus de 20% de la population mondiale avait accès à Internet ( http://donnees.banquemondiale.org). Ce média ne cesse de prendre de l'importance. L'expérimentation montre, par ailleurs, qu'un nombre important d'internautes éprouve des difficultés d'utilisation, de repérage et d'accès à l'information. Or, des communications de pairs à pairs entre usagers pourraient aider à les résoudre.

La matière première dont nous disposons, pour rapprocher ces utilisateurs est constituée des requêtes soumises aux moteurs de recherche. Afin de proposer les liens les plus pertinents possibles entre usagers, nous devons avant tout cerner les thématiques partagées entre ces derniers. Nous nous appliquerons à détecter ces thématiques dans l'ensemble des mots-clés constituant les requêtes, de sorte qu'au cours de leurs recherches les internautes soient mis en relation automatiquement. Ainsi se constitueront ce que nous appellerons des « Communautés Dynamiques » (cf. Avant-propos).

La matière première constituée de mots et de leurs utilisations conjointes a permis la création de graphes. Les mots représentent les noeuds et les co-utilisations, au sein des requêtes, les liaisons. Le graphe de mots ainsi constitué est issu du monde réel. Il est dit graphe de terrain par opposition au graphe généré mathématiquement. Nous avons ainsi positionné notre espace de recherche comme faisant partie de l'étude des graphes de terrain.

L'étude des grands graphes de terrain et plus particulièrement l'aspect qui s'attache à la création de groupes appelés communément « communautés », est un espace de recherche suscitant un fort engouement. Un graphe est un modèle particulièrement efficace pour représenter des interactions entre des objets en très grand nombre. L'étude des grands graphes

II. Approche et principaux objectifs 24

Introduction générale

de terrain a permis de relever des propriétés communes à ces réseaux que nous étudierons pour la construction de communautés dynamiques.

Les graphes obtenus à partir d'un fichier de log de requêtes issu d'un moteur de recherche ont pour des périodes de quelques semaines, un nombre de noeuds (de mots) supérieur à un million et plusieurs dizaines de millions de liaisons. En raison de la taille importante de ces graphes et de leur origine liée à un usage, ces graphes peuvent être considérés comme un Grand Graphe de Terrain.

Le noyau de la communauté dynamique sera un ensemble de mots permettant la connexion entre utilisateurs. Cet ensemble de mots devra représenter un espace sémantique cohérent autour d'une thématique précise.

Nous considérons que l'usage volontaire de mots associés dans un même texte (par exemple dans une requête utilisateur) par un auteur est le critère déterminant la cohérence sémantique entre ces mots. La cohérence sémantique est donc consécutive à l'intention d'un auteur.

Notre but est ainsi d'obtenir des agrégats de mots sémantiquement cohérents issus d'un Grand Graphe de Terrain.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry