Apprentissage sur des données académiques en vue de faciliter l'orientation et l'aide à la décision

par Zelkifilou NJAMEN MOUNGNUTOU
Université de Douala - Master 2 recherche en informatique appliquée option SIS 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.3.2 Transformation des données

Cette étape est effectuée afin de transformer les données sous des formes appropriées adaptées au processus d'exploration de données. Cela implique les moyens suivants :

1. Normalisation : Elle est effectuée afin de mettre à l'échelle les valeurs des données dans une plage spécifiée (-1,0 à 1,0 ou 0,0 à 1,0)

2.

3.3. PRÉ-TRAITEMENT DES DONNÉES CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE

Mémoire de Master II en Informatique 57 c~NJAMEN M. ZELKIF 2020-2021

Sélection d'attributs : dans cette stratégie, de nouveaux attributs sont construits ^àpartir de l'ensemble d'attributs donnépour aider le processus d'exploration.

3. Discrétisation : Ceci est fait pour remplacer les valeurs brutes de l'attribut numérique par des niveaux d'intervalle ou des niveaux conceptuels.

4. Génération de la hiérarchie du concept : ici, les attributs sont convertis du niveau inférieur au niveau supérieur de la hiérarchie. Par exemple, l'attribut « ville » peut être converti en « pays ».

3.3.3 Intégration des données

Le processus de combinaison de plusieurs sources dans un seul ensemble de données (Processus d'intégration de données) est l'un des principaux composants de la gestion des données. Il y a quelques problèmes à prendre en compte lors de l'intégration des données.

1. Intégration des schéma : Intégrer les métadonnées (un ensemble de données qui décrit d'autres données) de différentes sources.

2. Problème d'identification d'entité: Identification d'entitéà partir de plusieurs bases de données. Par exemple, le système ou l'application doit connaître l'étudiant id d'une base de données et le nom de l'étudiant d'une autre base de données appartient à la même entité.

3. Détecter et résoudre les concepts de valeur de données : Les données extraites de différentes bases de données lors de la fusion peuvent différer. Comme les valeurs d'attribut dans une base de données peuvent différer d'une base de données à une autre. Exemple : le format de la date peut différer car »MM/JJ/AAAA» ou »JJ/MM/AAAA».

3.3.4 Réduction des données

Étant donnéque l'exploration de données est une technique utilisée pour gérer une énorme quantitéde données. Tout en travaillant avec un énorme volume de données, l'analyse est devenue plus difficile dans de tels cas. Afin de s'en débarrasser, nous utilisons la technique de réduction des données. Il vise à augmenter l'efficacitédu stockage, à réduire les coûts de stockage et d'analyse des données.

3.4. MODÉLISATION DE L'ENTREPÔT DE DONNÉES CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE

Mémoire de Master II en Informatique 58 c~NJAMEN M. ZELKIF 2020-2021

Les différentes étapes de la réduction des données sont :

1. Agrégation du cube de données : l'opération d'agrégation est appliquée aux données pour la construction du cube de données.

2. Sélection du sous-ensemble d'attributs : les attributs les plus pertinents doivent être utilisés, tout le reste peut être supprimé. Pour effectuer la sélection d'attributs, on peut utiliser le niveau de signification et la valeur p de l'attribut. L'attribut ayant une valeur p supérieure au niveau de signification peut être rejeté.

3. Réduction de la numérotation : Cela permet de stocker le modèle de données au lieu de données entières, par exemple : Modèles de régression.

4. Réduction de la dimensionnalité: Cela réduit la taille des données par des mécanismes de codage. Elle peut être avec ou sans perte. Si, après reconstruction ^àpartir de données compressées, les données d'origine peuvent être récupérées, une

telle réduction est appelée réduction sans perte, sinon elle est appelée réduction avec perte. Les deux méthodes efficaces de réduction de la dimensionnalitésont : les transformées en ondelettes et l'ACP (Analyse en Composantes Principales).

précédent sommaire suivant