Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain

( Télécharger le fichier original )
par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.3 TREC-Eval

Le but initial de TREC-Eval est la comparaison entre différents moteurs de recherche. TREC-Eval peut comparer une liste de documents retournés par un moteur de recherche à une liste de documents théorique parfaite. Pour cela, on demande à des utilisateurs de formuler des requêtes. Les documents indexés sont ensuite classés par ordre de pertinence, manuellement par les utilisateurs. En rejouant les requêtes, les résultats retournés par les moteurs de recherche en évaluation sont ensuite comparés à la liste « idéale » proposée par les utilisateurs. Pour chaque couple {requête, document}, une note de pertinence est donnée. Ces notes sont stockées dans un fichier QREL « Query Relevance Judgments » . Chaque année une campagne de cinquante requêtes est rajoutée. La campagne s'effectue sur 300 000 articles. TREC-Eval est disponible en téléchargement sur le site : http://trec.nist.gov/

Mais, cinquante requêtes incluant juste quelques mots sur des sujets très différents sont insuffisantes pour créer des graphes suffisamment connectés et avec des pondérations signifiantes comme cela serait nécessaire pour créer des agrégats. Afin d'avoir plus de matière nous avons utilisé cinq campagnes de TREC-Eval et nous avons rajouté en tant que requête la description de la requête elle-même. Cette description est un texte court de quelques mots. La base disponible est donc au total cinq cents requêtes (250 requêtes correspondant au requêtes Trec-val et 250 requêtes correspondant à la description) et 150 000 articles.

4.3 : Les méthodes de validation sémantique 128

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

^{Fichier Topic Graphe}

^document

^japanese

^regulation

^trading

^insider

^of

^insider

^trading

^japan

^{insi of}

^panes

^trading

^Agré

^japan

^Agrégat

^document

Figure 4.2 : Processus de création du réseau à partir des fichiers «Topics» de TREC-Eval.

Les requêtes et leur description sont stockées dans des fichiers « Topics » correspondant à chacune des campagnes annuelles. En excluant les requêtes d'un seul mot, il reste 199 requêtes et 250 descriptions pour un total de 944 mots-clés. L'ensemble du réseau est utilisé, aucun filtre n'est appliqué.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses" Milan Kundera