WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Intégration de sources de données hétérogènes dans les entrepôts de données


par Sara Djebrit
Université de Ghardaia - Master Systèmes Intelligents pour l’Extraction de Connaissances 2019
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME D'INTÉGRATION DE DONNÉES

L'amélioration de ce formule se fait par Winkler tel que il prise en compte le nombre N de caractères communs au début des deux chaînes pour réduire le taux de comparaisons.

Jaro - Winkler(S1, S2) = Jaro(S1, S2) + N 10(1 - Jaro(S1, S2)) Utilisation d'ontologie

nous utilisons les concepts d'ontologie pour augmenter les performances de calcul de similarité, les techniques de rapprochement que nous les utilisons ne supportent pas les cas d'existence des synonymes ayant des termes différents, donc dans ce contexte nous utilisons un dictionnaire de données pour chaque source de données en représentant les attributs comme des termes avec ses synonymes, nous implémentons la comparaison entre les dictionnaires et les attributs pour obtiennent la similarité.

Dictionnaire de données

C'est une structure qui contient des termes compagne avec les synonymes, ces termes répré-sentent les attributs de chaque source de données référencées par des mots similaires. Dans notre travail nous proposons un dictionnaire creé d'une façon manuelle qui contient un en- semble des attributs référencés par ses synonymes, a l'aide de Word Net, nous pose pour chaque attribut des quatre sources un ensemble de trois synonymes obtient de Word Net.[19]

WordNet

Est un base de données lexicales. Les termes y sont organisés sous formes d'ensembles de synonymes, les synsets. Chaque synset est un concept lexicalisé. Ces concepts lexicalisés sont reliés par des relations linguistiques. WORDNET est un énorme dictionnaire hypermédia de l'anglais-américain (plus de 100 000 synsets). Sa richesse et sa facilité d'accès le positionnent comme un intéressant outil pour la recherche d'information ou d'autres tâches comme le traitement du langage naturel mais ce n'est pas un ontologie car les relations ne sont en aucun cas formelles. L'utiliser tel quel, dans un système formel est donc voué à l'échec. Sa seule utilisation dans le cadre de l'intégration ne peut donc être que d'assister un expert humain.[20]

3.2.4 Implémentation de Médiateur

La réalisation de médiateur est d'effectuer les deux fonctions principales de processus ETL : transformation pour rassembler les sources de données participées et charger le schéma global XML résulte dans l'entrepôt de données.

Notre travail est de valider un algorithme qui suit les principes de la fonction de transformation, nous utilisons les techniques de rapprochement et le dictionnaire de données.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle