WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La désambiguà¯sation des toponymes

( Télécharger le fichier original )
par Imene BENSALEM
Université Mentouri de Constantine, Algérie - magistère en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.6 Les ressources

Toute source de connaissance hormis le contexte est appelée ressource. Les ressources ont deux rôles principaux dans la DT qui sont :

1. Fournir les différents référents d'un toponyme. Ce qui représente la première étape de la DT ;

2. Fournir des connaissances linguistiques et géographiques sur les référents (Voir aussi la taxonomie de connaissances dans la Figure 3-7).

Les ressources peuvent offrir des connaissances générales ou spécifiques à un domaine. Par exemple, WordNet18 (voir Chapitre 4, p98) fourni des définitions et des relations pour plusieurs types de mots: les noms (y compris les toponymes), les verbes, les adjectifs, et les adverbes. Tandis que les gazetteer (Section 3.6.1) sont des ressources de connaissances sur les lieux géographiques seulement.

Les ressources utilisées dans l'état de l'art sont : les ontologies (Volz, Kleb et Mueller 2007), les corpus linguistiques (Smith et Mann 2003), les gazetteer.

3.6.1 Les gazetteers

Gazetteer est un terme anglais19 qui représente traditionnellement un dictionnaire de toponymes. Maintenant, les gazetteers sont considérés comme un type de Systèmes d'Organisation des Connaissances (SOC), qui organisent des informations sur les lieux géographiques nommés (Hill 2006).

Une entrée dans un gazetteer contient au minimum 3 types d'informations (Leidner 2007) qui sont un toponyme avec son type et son empreinte spatiale:

Toponyme : nom d'un objet20 géographique et éventuellement ses variantes historique ou vernaculaire (voir Section 2.2).

Type : c'est la catégorie de l'objet géographique à lequel se réfère le toponyme, par exemple : région administrative, pays, cité, montagne, pont, ..., etc.

18 http://wordnet.princeton.edu

19 Nous avons choisi d'utilisé le terme gazetteer dans ce mémoire car il n'a pas une traduction unique et précise en français.

20 On dit objet car le gazetteer peut contenir non seulement des noms de lieux comme les pays et les villes mais aussi des noms des montagnes, des rivières, des constructions ..., etc.

Empreinte spatiale : représentation de la location référée par le toponyme dans un système de coordination par exemple la latitude et la longitude.

Les gazetteers diffèrent entre eux dans les types d'objets qu'ils renferment (ex. lieux habités, étendus d'eau, montagnes...) la couverture géographique (ex. le monde, un continent, un pays...), la granularité des lieux ( ex. il peut contenir seulement les pays avec leurs villes comme il peut aller jusqu'aux villages, cartiers, rues..), et les détails de chaque entrée (population, longitude et latitude, code postale, superficie...) (Hill 2006) (Leidner 2007, Chapitre 4).

Les gazetteers sont utilisés dans les méthodes de DT pour 4 objectifs :

1. Identifier les toponymes dans le texte ;

2. Fournir la liste des référents candidats pour chaque toponyme ;

3. Fournir des connaissances géographiques à propos des référents ;

4. Annoter les corpus destinés à l'évaluation des méthodes de DT, ou ceux servant comme source de connaissance, notamment, dans les méthodes supervisées (comme (Smith et Mann 2003)). Voir Section 3.6.2 pour plus d'informations sur les corpus et leur annotation.

Le Tableau 3-5 montre les connaissances fournies par les gazetteers et les heuristiques qui les manipulent. Nous remarquons que les connaissances des gazetteers sont manipulées presque par tout les heuristique de désambiguïsation des toponymes.

Tableau 3-5. Les connaissances fournies par les gazetteers et les Heuristiques qui les manipulent

connaissances Heuristiques qui les manipulent

Position géo-spatiale H1 Distance aux voisins textuels non ambigusH1

H5 Espace géométrique (polygone / distance) minimaliste

H6 Contexte géographique unifiéH6

Chemin hiérarchique H2 Chevauchement entre les chemins hiérarchiques des référents

et le texte

H3.1 Les patterns de relation hiérarchique

H7 Le chemin le plus court entre les référents

H8 Les noeuds de l'arbre couvrant maximum

Population H10 La plus grande population

H16 Supprimer les petites places

Type de référent H11 Le référent de niveau supérieur

H3.2 Les patterns de type

H13 Préférer un type

Le Tableau 3-6 fournit des informations sur quelque gazetteers utilisés dans la littérature de la DT.

Tableau 3-6. Exemple de gazetteers utilisés dans les méthodes de désambigüisation des toponymes

Nom Nombre Site web Utilisé par

d'entrées

The Getty Thesaurus of 1.115.000 http://www.getty.edu/research (Stokes, et al. 2008)

Geographic Names (TGN) /conductingresearch/vocabula (Li, et al. 2006)

ries/tgn (Overell et Rüger 2007)

(Clough 2005)

World gazetteer inconnu http://world-gazetteer.com (Amitay, et al. 2004)

(Stokes, et al. 2008) (Li, et al. 2006)

USGS Geographic Names 1.836.264 http://geonames.usgs.gov (Amitay, et al. 2004)

Information System (Volz, Kleb et Mueller 2007)

(GNIS) (Garbin et Mani 2005)

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius