WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.6.2 Les corpus

Un corpus est une collection de textes utilisées pour apprendre des modèles de langue (Navigli 2009).

Les corpus dans le domaine de la DT sont des ressources textuelles21 où tous les toponymes sont annotés avec des informations spatiales qui indiquent une position unique dans la Terre (Leidner 2007).

Les corpus sont utilisés dans les heuristiques de DT pour obtenir deux connaissances linguistiques: les collocations (c.-à-d. les cooccurrences fréquentes) (voir H4), et des statistiques linguistiques à propos de la distribution de l'occurrence des toponymes et leurs sens (ex. trouver le référent le plus fréquents pour un toponyme (voir H15)).

En plus de leur utilisation comme source de connaissances, les corpus sont utilisés aussi comme terrain vérité pour l'évaluation des méthodes de DT.

Dans un corpus de DT chaque toponyme doit être annoté par un label (tag) qui détermine le lieu à lequel il se réfère ( ex. la latitude et la longitude). Les informations de l'annotation sont obtenues depuis les gazetteers. Conséquemment, l'utilisation d'un certain corpus pour l'évaluation impose l'utilisation du gazetteer avec lequel il est annoté.

Malheureusement, l'évaluation est encore problématique dans la communauté de recherche à cause du manque de corpus standards dédiés à la tâche de désambiguïsation des toponymes (Leidner 2007). Les méthodes de la littérature sont toutes évaluées sur des corpus différents.

3.6.3 Les ontologies

Volz, et al. (2007) ont présenté une approche de DT basée sur une ontologie et sa lexicalisation22. Dans leur approche, l'ontologie sert à identifier les toponymes dans le texte, à leur associer les référents possibles, et à fournir des connaissances pour la désambiguïsation.

21 Un ensemble de documents qui contiennent du texte libre en langue naturelle.

22 Création automatisée des listes qui comprennent tous les mots utilisés pour nommer respectivement les concepts, les relations, et les instances d'une ontologie.

L'ontologie dans l'approche de (Volz, Kleb et Mueller 2007) n'a joué pratiquement que le rôle d'un gazetteer mais seulement, elle a une structure différente où chaque type géographique est représenté par un concept (une classe), les référents sont les instances, et les toponymes sont le vocabulaire des instances. D'après notre point de vue, le vrai avantage des ontologies, est l'inférence des relations, mais malheureusement, cela n'a pas été exploité dans cette approche.

La méthode de Buscladi et Rosso (Buscaldi et Rosso 2008a) est basée sur l'ontologie WordNet qui a été utilisée pour fournir les différents sens d'un toponyme mais aussi pour calculer la densité conceptuelle (voir l'heuristique H9)

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Piètre disciple, qui ne surpasse pas son maitre !"   Léonard de Vinci