WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.6.3.5 Discussion

Après avoir examiné un ensemble de travaux sur l'utilisation du texte comme une source d'informations géographiques, nous avons pu tirer les remarques suivantes :

8 La conscience de situation (situational awareness (SA)) est la perception des éléments de l'environnement dans un volume de temps et d'espace, la compréhension de leur signification, et la projection de leur état dans le futur proche.

· Les informations géographiques souvent extraites du texte sont : les évènements, les adresses et les codes postaux, les noms des lieux, les noms des routes, les numéros de téléphone,...etc.

· Les informations extraites soit elles sont utilisées pour construire une base de données comme le cas de l'extraction des évènements et la génération des profiles de personnes, soit pour enrichir une base de données géographiques déjà existante.

· Les bases de données géographiques construites à partir des documents textuels avaient des utilisations variées dans la littérature entre autre l'analyse et la visualisation des évènements et le data mining.

· L'extraction des entités géographiques à partir des documents textuels utilisent des techniques pour identifier les informations géographiques dans le texte et d'autres pour relier ces informations à une position unique sur la Terre.

1.7 La relation entre le data mining spatiales et la

désambiguïsation des toponymes

Nous avons montré dans la section précédente que les documents textuels peuvent servir comme une source de données géographiques. En plus, dans certains travaux comme (Morimoto, et al. 2003) le data mining spatial a été utilisé pour tirer des connaissances à partir des informations géographiques provenant du texte.

La question qui se pose maintenant est : quel est la relation de tout ça avec la désambiguïsation des toponymes qui est le sujet principal de ce mémoire ?

9 D'après une communication personnelle avec Dmitri V. Kalashnikov, le premier auteur des deux articles cités ci-dessus.

Tableau 1-3. Comparaison entre les toponymes et les coordonnées géographiques

Toponymes Cordonnées géographiques

Données attributaires Données spatiales

Non formels (nominales) Formelles

Ne peuvent pas subir les calculs géométriques

Manipulés beaucoup plus par l'Homme dans le texte et la parole

Permettent les calculs géométriques

Manipulées beaucoup plus par la machine, notamment par les SIG

En effet, l'utilisation du texte comme source de données (géographiques et non géographiques) pâti d`un grand problème qui est l'ambiguïté des sens des noms propres. Généralement, cette ambiguïté consiste à l'utilisation d'un seul nom pour représenter des entités différentes.

Les toponymes c.-à-d. les noms des lieux sont parmi les noms propres qui peuvent être extraits du texte, notamment pour construire une base de données géographiques. À l'instar des autres types de noms propres, les toponymes sont des noms très ambigus (voir le chapitre suivant). Constantine, par exemples, est le nom de 17 lieux dans le monde10.

L'ambiguïté des toponymes est un problème pour le data mining spatial pour deux raisons, d'un coté, elle réduit la qualité de données, qui est un facteur important pour la réussite du data mining11, et d'un autre côté c'est un obstacle à l'intégration de données de plusieurs sources, qui est une étape importante pour la préparation des données du DMS.

En outre, les toponymes sont des données attributaire non formelles. Il est donc
nécessaire de les convertir en données formelles comme la latitude et la longitude
dans le but d'obtenir une base de données géographiques au sens du mot c.-à-d.

10 D'après Getty Thesaurus of Geographic names online http://www.getty.edu/research/conductingresearch/vocabularies/tgn (consulté le 6 mai 2009)

Le groupe pétrolier public algérien Sonatrach annonce la découverte de pétrole dans le bassin de Ghadamès, à 230 km au sud de Tripoli.

Cette découverte a été effectuée "suite au forage du puits d'exploration A1-65/02", attribué en mars 2005 par la National Oil Corporation (NOC), la compagnie

Extraction d'information

Tripoli a 10 référents : 1 en Lybie, 1 en Lebon

?

et 8 en USA.

Le toponyme La donnée spatiale

de toponymes Lybie

Désambiguïsation Tripoli de

Figure 1-6. Le rôle de la désambiguïsation des toponymes dans la construction d'une base de
données géographiques à partir du texte

une base de données qui contient des données spatiales (voir Section 1.6.2.1). Contrairement aux toponymes, Ces dernières, peuvent d'un côté, subir des calculs géométriques, qui sont les opérations de base des tâches du DMS et d'un autre coté, elles sont précises, ce qui est une caractéristique centrale pour la réussite du data mining spatial. Le Tableau 1-3 (voir Page 29) résume les différences qui existent entre les coordonnées géographiques qui sont des données spatiales et les toponymes qui sont donnée attributaire.

La désambigüisation des toponymes peut être considérée comme une étape de prétraitement de données dans le processus du DMS permettant de déterminer le lieu à lequel il se réfère chaque toponyme ambigu extrait de la source textuelle. Autrement dit, la désambiguïsation des toponymes permet d'attribuer à un toponyme, qui est une donnée ambiguë non formelle, une position unique dans la Terre, qui est une donnée précise. Cette dernière peut être convertie en une représentation formelle (spatiale) qui est indispensable pour les traitements spatiaux notamment le data mining spatial. La Figure 1-6 est une illustration de ce point.

11 L'application du data mining (spatial ou autre) sur des données ambiguës va sûrement engendrer des résultats erronés.

Figure 1-7. La position de la désambiguisation des toponymes dans le processus du data mining spatial

Brièvement, la relation du data mining spatial et la désambiguïsation des toponymes se résume dans la phrase suivante : la désambiguïsation des toponymes est une technique indispensable dans la phase de préparation des données du data mining spatial dans le cas où le texte en langue naturelle est utilisé comme une source des données géographiques. La Figure 1-7 montre la position de la DT dans le processus du DMS.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Ceux qui rĂªvent de jour ont conscience de bien des choses qui échappent à ceux qui rĂªvent de nuit"   Edgar Allan Poe