Intégration de sources de données hétérogènes dans les entrepôts de données

par Sara Djebrit
Université de Ghardaia - Master Systèmes Intelligents pour l’Extraction de Connaissances 2019

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME D'INTÉGRATION DE DONNÉES

ainsi nous utilisons les concepts d'ontologies en basant sur les sémantiques des informations dont nous obtenons les synonymes, en construction un dictionnaire des données contient les termes et leurs sens, sur lequel nous fusionnons les termes qui ayant la même sémantique.

2. Charge:

Cette fonction fait après l'intégration de sources de données dans un schéma global, tel qu'un source global homogène résulte depuis l'intégration des sources hétérogènes a étè

chargée dans un entrepôt de données, dans notre travail c'est le XML fichier global.

Technique de rapprochement

Les algorithmes de technique de rapprochement consacrent de trouver les simulations entre les caractères des termes. Dans notre travail nous implémentons un algorithme qui est l'optimisation des deux algorithmes de cette technique pour faire la comparaison dans l'objectif de trouver les termes semblables dont nous validons l'intégration entre les sources qui contiennent ces termes.

-- Algorithme LCS « Longest Common Susbtring »

LCS problème consiste à trouver la plus longue sous séquence commune entre les deux chaînes de séquences, l'algorithme de LCS permet de comparer deux chaînes de caractères pour trouver la divergence entre eux selon les caractères trouvés, jusqu'à trouver la plus longue chaîne commune.

Cet algorithme est plus performant pour le cas d'une divergence ou une simulation des caractères entre les termes.

La mesure de similarité se calcule par;