WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.4.2.2 Désambiguïsation par les règles de préférences

Le choix d'un référent parmi les candidats dans cette classe d'heuristiques dépend principalement des préférences et des intuitions de l'Homme et il est complètement indépendant du contexte (le contraire des heuristiques de la première classe (Section 3.4.2.1)).

Chaque règle de préférence permet directement de choisir un référent parmi les candidats, ou d'affecter un poids à chacun d'eux, et celui qui a le plus grand score (la somme des poids attribués par plusieurs heuristiques) sera ensuite choisi comme le référent correct. Par exemple, les auteurs de (Li, et al. 2006), ont utilisé une approche qui attribue des scores de probabilité aux candidats en se basant sur plusieurs heuristiques comme H10 et H13.

Une règle de préférence peut être basée sur l'intuition humaine (H10, ..., H14, H16) ou sur des statistiques effectué sur des corpus de référence (H15), ou sur des exigences de l'application (H17).

Certaines heuristiques de cette classe ne sont qu'une simplification du problème, c.-à-d. elles ne conduisent pas directement au référent voulu mais plutôt elles réduisent le nombre de référents candidats, c'est le cas de H16 et H17.

Nous expliquons dans ce qui suit les heuristiques de la catégorie règles de préférences.

H10 La plus grande population

Cette heuristique consiste à attribuer au toponyme ambigu le référent avec la plus grande population, en s'appuyant sur une source d'informations fiables.

Cette heuristique est utilisée dans (Rauch, Bukatin and Baker 2003), (Amitay, et al. 2004) et (Pouliquen, et al. 2004), (Li, et al. 2006).

H11 Le référent de niveau supérieur

Soit une taxonomie de toponymes dont la racine est le monde et les feuilles sont les villes12.

Si un toponyme peut se référer à deux référents candidats, dont l'un est un pays, et l'autre est une ville, H11 choisit celui qui appartient à la classe la plus supérieure, dans ce cas c'est le pays qui sera choisi.

Cette heuristique est utilisée dans (Smith and Crane 2001), (Li, Srihari, et al. 2003), (Clough 2005) et (Stokes, et al. 2008).

H12 Le référent le plus connu

Le choix du référent correct est basé sur l'intuition humaine loin de toute connaissance fournie par les gazetteers ou d'autres ressources. Li, Srihari, et al. (2002, 2003) ont développé une procédure qui récupère le lieu le plus connu pour un toponyme ambigu en se basant sur les mécanismes de « ranking » des moteurs de recherche. Leur heuristique utilise le moteur de recherche Yahoo!13.

Exemple

Si le toponyme « Cairo » est mentionné dans un texte, cette heuristique lui attribue le référèrent « Cairo>Egypte » au lieu de « Cairo>Alabama>USA » par exemple. Car les premiers résultats retournés par la requête « cairo » au moteur de recherche Yahoo! représentent le référent « Cairo>Egypte », comme c'est illustré dans la Figure 3-5.

12 C'est ce que nous avons appelé l'arbre hiérarchique des lieux du monde.

13 http://www.yahoo.com

Figure 3-5. Les résultats de la requête "cairo" dans le moteur de recherche Yahoo!

H13 Préférer un type

Par exemple préférer les référents qui représentent des capitales, ou préférer les lieux habités que les divisions administratives...etc.

Exemple

Constantine peut indiquer la wilaya de Constantine ou la ville de Constantine, si le type préféré est « ville » alors c'est la ville de Constantine qui est choisie comme référent.

Cette heuristique est utilisée dans : (Li, Srihari, et al. 2003), (Li, et al. 2006).

H14 Ordre de préférence des ressources

Lors de l'utilisation parallèle de plusieurs gazetteers, il peut être utile de définir un ordre de priorité statique entre eux. Clough (2005) a prouvé l'efficacité de cette méthode en établissant un ordre de préférence entre 3 ressources géographiques selon leurs qualités.

H15 Le sens le plus fréquent dans un corpus

Il s'agit de choisir le référent qui est situé dans l'état ou le pays le plus fréquent. Ces fréquences d'occurrence sont calculées sur un corpus d'apprentissage.

Smith et Mann (2003) ont utilisé les résultats de cette heuristique comme référence pour mesurer les performances de leur méthode principale.

Stokes et al. (2008) ont supposé que l'emplacement le plus fréquent pour un toponyme est celui représenté par la page de Wikipedia14 qui contient le plus grand nombre d'occurrences de ce toponyme. Le classement des pages de Wikipedia selon le nombre d'occurrence d'un toponyme est obtenu par le service web GeoNames15. L'intuition derrière cette heuristique16 est que les contributeurs de Wikipédia ont tendance à écrire un article plus long (conséquemment avec plus de mentions du toponyme) pour l'emplacement le plus souvent associé à un toponyme ambigu.

Exemple

On ne s'attend pas d'avoir un long article sur Gaza située aux États-Unis que celui sur Gaza de Palestine, donc l'article de Gaza>États-Unis ne contient pas autant d'occurrence du terme Gaza, par conséquence il ne sera pas classé le premier dans les résultats de recherche fournies par GeoNames. Et donc c'est Gaza>Palestine qui sera attribué au toponyme Gaza.

H16 Supprimer les petites places

Il s'agit de réduire la taille de la ressource des lieux géographiques en fonction de la taille de la population. Cela diminue l'ambiguïté, mais bien évidemment c'est une simplification du problème plutôt que une véritable solution. Toutefois, Pouliquen et al. (2004) ont démontré que cette technique peut être utile dans certaines applications.

14 http://www.wikipedia.org

15 http://www.geonames.org

16 Cette clarification avec l'exemple utilisé est obtenue par une communication personnelle avec Nicola Stokes (le premier auteur de l'article).

H17 Concentration sur une zone géographique

Cette heuristique consiste à ignorer les référents qui se trouvent en dehors d'un polygone ou d'une zone géographique (pays, région, continent...).

La zone géographique concernée est sélectionnée d'une manière statique, c. à. d. elle ne dépend pas formellement du texte mais plutôt, c'est une décision faite par l'utilisateur ou le concepteur du système de désambiguïsation. Cette heuristique peut être considérée comme la version statique de H6, et elle est utilisée dans (Pouliquen, et al. 2004).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Soit réservé sans ostentation pour éviter de t'attirer l'incompréhension haineuse des ignorants"   Pythagore