WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.3 Le contexte

Le contexte est le texte en langue naturelle qui contient le(s) toponyme(s) à désambiguïser. Il est donc naturelle que l'opération de manipuler le contexte soit présente dans toute méthode de DT.

Deux types d'informations qui peuvent être tirées du contexte :

1. Les toponymes (ou d'autres mots pertinent) qu'il contient,

2. Des informations statistiques ou linguistiques sur le toponyme à résoudre tels que la position dans le texte, la fréquence d'occurrence, ... etc. (voir Section 0 pour plus d'informations sur les connaissances)

L'utilisation du contexte pour associer les mots à leurs sens est une idée intuitive dont l'origine est dans le domaine de désambiguïsation des sens des mots. Cependant, le contexte dans les méthodes de désambiguïsation des toponymes est représenté généralement par les toponymes qu'il contient et non pas par tous les mots du texte.

La taille du contexte dans les méthodes de DT varie de quelques toponymes autour du toponyme ambigu jusqu'à tous les toponymes du texte d'un document.

Supposons qu'un document contient le texte ci-dessous4 (Les toponymes sont soulignés).

« La ville de La Mecque, se situe à l'ouest de l'Arabie saoudite, sur les pentes de la chaîne d'Al-Sarawat, entre les massifs du Hedjaz et de l'Asir, plus précisément dans la vallée de l'Oued Ibrahim au pied de collines de 60 m à plus de 500 m de hauteur. Le port de Djeddah n'est distant que de 65 kilomètres.

La partie est de la ville se situe entre 194 et 310 m au-dessus du niveau de la mer. La partie ouest à 400 m, se caractérise par la présence de certains monts qui

peuvent atteindre jusqu'à 900 m d'altitude comme le mont Jabal Tarki (qui est la plus haute montagne de La Mecque) et le Jabal Khandama qui culmine à 914

m. »

Le Tableau 3-1 illustre les différentes tailles du contexte, en supposons que le toponyme « Asir » (dans le texte ci-dessus) est le toponyme à désambiguïser.

Tableau 3-1. Les différentes tailles du contexte

Taille du contexte Explication Exemple

n-grams

une séquence de n

toponymes, y compris le toponyme cible (le toponyme à désambiguïser)

Hedjaz, Asir, Oued Ibrahim (n=3)

Fenêtre (taille #177;n)

Une fenêtre de taille #177;n veut dire n toponyme à droite et n toponyme à gauche du mot cible.

Al-Sarawat, Hedjaz, Asir, Oued Ibrahim, Djeddah (n=2)

La suite du tableau est dans la page suivante

4 Ce texte est un extrait de : La Mecque. (2009, août 25). Wikipédia, l'encyclopédie libre. Page consultée le 10:21, septembre 6, 2009 à partir de http://fr.wikipedia.org/w/index.php?title=LaMecque&oldid=44178292.

Tous les toponymes de la La Mecque, Arabie saoudite, Al-

Phrase phrase qui contient le Sarawat, Hedjaz, Asir, Oued

toponyme cible. Ibrahim.

Tous les toponymes du La Mecque, Arabie saoudite, Al-

Paragraphe paragraphe qui contient le Sarawat, Hedjaz, Asir, Oued

toponyme cible. Ibrahim, Djeddah, Djeddah.

Discours

Tous les toponymes du texte qui contient le toponyme cible.

La Mecque, Arabie saoudite, AlSarawat, Hedjaz, Asir, Oued Ibrahim, Djeddah, Djeddah, Jabal Tarki, La Mecque, Jabal Khandama

Buscaldi et Rosso (2008c) ont comparé la précision et le recall5 de deux heuristiques de DT en utilisant des tailles différentes de contexte. DC représente l'heuristique de la densité conceptuelle (Buscaldi et Rosso 2008a) (Voir H9 H6cidessous), et MAP représente l'heuristique de (Smith and Crane 2001) (Voir H6 cidessous).

Les graphes de la Figure 3-2 (Construit à partir des données fournies par (Buscaldi
and Rosso 2008c)) montrent que le recall (le pourcentage des toponymes résous

94,70% 94,00% 92,20%

87,90%

83,20% 84,00%

Phrase Paragraphe Document

Précision_DC Précision_MAP Recall_DC Recall_MAP

74,20%

70,20%

63,90%

56,70%

41,60%

27,80%

Figure 3-2. L'effet de la taille du contexte sur la performance de désambiguïsation des toponymes

5 La précision et le recall sont des mesures de performance des méthodes de désambiguïsation des toponymes. Voir le chapitre suivant pour plus d'informations sur ces mesures.

correctement par rapport à tous les toponymes) augmente avec des valeurs significatives en augmentant la taille du contexte. Tandis que la précision diminue dans une méthode et augmente dans une autre mais avec des valeurs non importantes.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée"   François de la Rochefoucauld