3.3.2 Transformation des données
Cette étape est effectuée afin de transformer
les données sous des formes appropriées adaptées au
processus d'exploration de données. Cela implique les moyens suivants
:
1. Normalisation : Elle est effectuée afin de mettre
à l'échelle les valeurs des données dans une plage
spécifiée (-1,0 à 1,0 ou 0,0 à 1,0)
2.
3.3. PRÉ-TRAITEMENT DES DONNÉES CHAPITRE 3.
DÉMARCHE MÉTHODOLOGIQUE
Mémoire de Master II en Informatique 57 c~NJAMEN M. ZELKIF
2020-2021
Sélection d'attributs : dans cette stratégie, de
nouveaux attributs sont construits àpartir de l'ensemble
d'attributs donnépour aider le processus d'exploration.
3. Discrétisation : Ceci est fait pour remplacer les
valeurs brutes de l'attribut numérique par des niveaux d'intervalle ou
des niveaux conceptuels.
4. Génération de la hiérarchie du
concept : ici, les attributs sont convertis du niveau inférieur au
niveau supérieur de la hiérarchie. Par exemple, l'attribut «
ville » peut être converti en « pays ».
3.3.3 Intégration des données
Le processus de combinaison de plusieurs sources dans un seul
ensemble de données (Processus d'intégration de données)
est l'un des principaux composants de la gestion des données. Il y a
quelques problèmes à prendre en compte lors de
l'intégration des données.
1. Intégration des schéma : Intégrer les
métadonnées (un ensemble de données qui décrit
d'autres données) de différentes sources.
2. Problème d'identification d'entité:
Identification d'entitéà partir de plusieurs bases de
données. Par exemple, le système ou l'application doit
connaître l'étudiant id d'une base de données et le nom de
l'étudiant d'une autre base de données appartient à la
même entité.
3. Détecter et résoudre les concepts de valeur
de données : Les données extraites de différentes bases de
données lors de la fusion peuvent différer. Comme les valeurs
d'attribut dans une base de données peuvent différer d'une base
de données à une autre. Exemple : le format de la date peut
différer car »MM/JJ/AAAA» ou »JJ/MM/AAAA».
3.3.4 Réduction des données
Étant donnéque l'exploration de données
est une technique utilisée pour gérer une énorme
quantitéde données. Tout en travaillant avec un énorme
volume de données, l'analyse est devenue plus difficile dans de tels
cas. Afin de s'en débarrasser, nous utilisons la technique de
réduction des données. Il vise à augmenter
l'efficacitédu stockage, à réduire les coûts de
stockage et d'analyse des données.
3.4. MODÉLISATION DE L'ENTREPÔT DE DONNÉES
CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE
Mémoire de Master II en Informatique 58 c~NJAMEN M. ZELKIF
2020-2021
Les différentes étapes de la réduction des
données sont :
1. Agrégation du cube de données :
l'opération d'agrégation est appliquée aux données
pour la construction du cube de données.
2. Sélection du sous-ensemble d'attributs : les
attributs les plus pertinents doivent être utilisés, tout le reste
peut être supprimé. Pour effectuer la sélection
d'attributs, on peut utiliser le niveau de signification et la valeur p de
l'attribut. L'attribut ayant une valeur p supérieure au niveau de
signification peut être rejeté.
3. Réduction de la numérotation : Cela permet
de stocker le modèle de données au lieu de données
entières, par exemple : Modèles de régression.
4. Réduction de la dimensionnalité: Cela
réduit la taille des données par des mécanismes de codage.
Elle peut être avec ou sans perte. Si, après reconstruction
àpartir de données compressées, les
données d'origine peuvent être récupérées,
une
telle réduction est appelée réduction
sans perte, sinon elle est appelée réduction avec perte. Les deux
méthodes efficaces de réduction de la dimensionnalitésont
: les transformées en ondelettes et l'ACP (Analyse en Composantes
Principales).
|