WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

4.2.3 TREC-Eval

Le but initial de TREC-Eval est la comparaison entre différents moteurs de recherche. TREC-Eval peut comparer une liste de documents retournés par un moteur de recherche à une liste de documents théorique parfaite. Pour cela, on demande à des utilisateurs de formuler des requêtes. Les documents indexés sont ensuite classés par ordre de pertinence, manuellement par les utilisateurs. En rejouant les requêtes, les résultats retournés par les moteurs de recherche en évaluation sont ensuite comparés à la liste « idéale » proposée par les utilisateurs. Pour chaque couple {requête, document}, une note de pertinence est donnée. Ces notes sont stockées dans un fichier QREL « Query Relevance Judgments » . Chaque année une campagne de cinquante requêtes est rajoutée. La campagne s'effectue sur 300 000 articles. TREC-Eval est disponible en téléchargement sur le site : http://trec.nist.gov/

Mais, cinquante requêtes incluant juste quelques mots sur des sujets très différents sont insuffisantes pour créer des graphes suffisamment connectés et avec des pondérations signifiantes comme cela serait nécessaire pour créer des agrégats. Afin d'avoir plus de matière nous avons utilisé cinq campagnes de TREC-Eval et nous avons rajouté en tant que requête la description de la requête elle-même. Cette description est un texte court de quelques mots. La base disponible est donc au total cinq cents requêtes (250 requêtes correspondant au requêtes Trec-val et 250 requêtes correspondant à la description) et 150 000 articles.

4.3 : Les méthodes de validation sémantique 128

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Fichier Topic Graphe

document

japanese

regulation

trading

insider

of

insider

trading

japan

insi of

panes

trading

Agré

japan

Agrégat

document

Figure 4.2 : Processus de création du réseau à partir des fichiers «Topics» de TREC-Eval.

Les requêtes et leur description sont stockées dans des fichiers « Topics » correspondant à chacune des campagnes annuelles. En excluant les requêtes d'un seul mot, il reste 199 requêtes et 250 descriptions pour un total de 944 mots-clés. L'ensemble du réseau est utilisé, aucun filtre n'est appliqué.

précédent sommaire suivant