Apprentissage sur des données académiques en vue de faciliter l'orientation et l'aide à la décision

par Zelkifilou NJAMEN MOUNGNUTOU
Université de Douala - Master 2 recherche en informatique appliquée option SIS 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.3 Pré-traitement des données

Le pré-traitement des données est une technique d'exploration de données qui est utilisée pour transformer les données brutes dans un format utile et efficace.

Les données réelles sont souvent incomplètes, incohérentes et / ou dépourvues de certains comportements ou tendances, et sont susceptibles de contenir de nombreuses erreurs. Le prétraitement des données est une méthode éprouvée pour résoudre ces problèmes. Le prétraitement des données prépare les données brutes à un traitement ultérieur. Les données passent par une série d'étapes pendant le prétraitement.

Le processus de traitement des données est illustrépar le schéma ci-après 3.3 :

· Nettoyage des données : les données sont nettoyées par des processus tels que le remplissage des valeurs manquantes, le lissage des données bruyantes ou la résolution des incohérences dans les données.

3.3. PRÉ-TRAITEMENT DES DONNÉES CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE

Mémoire de Master II en Informatique 54 c~NJAMEN M. ZELKIF 2020-2021

Figure 3.3 - Processus d'acquisition et Pré-traitement des données Medium [38]

· Intégration des données : les données avec différentes représentations sont rassemblées et les conflits au sein des données sont résolus.

· Transformation des données : les données sont normalisées, agrégées et généralisées.

· Réduction des données : cette étape vise à présenter une représentation réduite des données dans un entrepôt de données.

· Dans Science [39], la discrétisation des données : implique la réduction d'un certain nombre de valeurs d'un attribut continu en divisant la plage d'intervalles d'attribut.

3.3.1 Nettoyage des données

Les données peuvent comporter de nombreuses parties non pertinentes et manquantes. Pour gérer cette partie, un nettoyage des données est effectué. Cela implique le traitement des données manquantes, des données bruitées, etc selon Lima [40].

Le processus de Nettoyage de données est fondamental à la préparation des données. Il permet d'améliorer la qualitédes données en supprimant ou en modifiant les données erronées.

Le but est d'éviter de retrouver dans la base de données des données incorrectes. Les données peuvent être incorrectes pour plusieurs raisons :

·

3.3. PRÉ-TRAITEMENT DES DONNÉES CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE

Mémoire de Master II en Informatique 55 c~NJAMEN M. ZELKIF 2020-2021

3.3. PRÉ-TRAITEMENT DES DONNÉES CHAPITRE 3. DÉMARCHE MÉTHODOLOGIQUE

Erreurs de saisies

· Erreurs lexicales

· Erreurs de formats

· Doublons

· Données manquante

· Erreurs sémantiques

Le nettoyage des données est une étape cruciale dans la préparation des données car toute erreur liée aux données se répercutera inévitablement dans l'analyse des données, c'est pourquoi les équipes portent une attention particulière à cette étape et nous aussi.

L'augmentation de la quantitédes données provoquent une augmentation des données incorrectes, ce qui oblige les entreprises à adopter une multitudes de méthodes afin de les éliminer.

Parmi ces méthodes on peut citer par exemple l'audit de données, l'élimination des doublons par Algorithme ou encore l'analyse syntaxique.

· (Une) ou Des. Données manquantes:

cette situation se produit lorsque certaines données sont manquantes dans les données. Le problème des données manquantes peut être traitéde diverses manières telles que :

1) Ignorer les tuples

cette approche ne convient que lorsque l'ensemble de données dont nous disposons est assez volumineux et que plusieurs valeurs sont manquantes dans un tuple. Exemple : Au début de l'analyse de notre data-set, nous hésitions entre considérer ou ne pas considérer l'attribut sexe et pour finir nous avons supprimécette colonne dans le data-set pour éviter d'avoir un modèle sexiste. Cependant si nous avions décidéautrement, et que par exemple nous avions eu des données manquantes pour cet attribut, nous aurions procédécomme ci-dessous par exemple en considérant la valeur la plus représentée si c'est F on aurait remplacépar F et autrement par M dans le cas des M.

2) Remplissez les valeurs manquantes :

Mémoire de Master II en Informatique 56 c~NJAMEN M. ZELKIF 2020-2021

Il existe différentes manières d'effectuer cette tâche. Vous pouvez choisir de remplir les valeurs manquantes manuellement, par moyenne d'attribut ou par valeur la plus probable.

Par Exemple : dans notre data-set il y a eu des données manquantes à cause de la mobilitédes élèves dans les établissements scolaire. Certains commencent l'année dans un établis-

sement et la termine dans un autre ce qui cause ce problème de données manquantes. Dans ce cas, puisque ce sont des données numériques, nous avons remplacépour chaque valeur manquante d'un attribut, par la moyenne de toutes les valeurs de cet attribut.

· Données bruyantes:

les données bruyantes sont des données dénuées de sens qui ne peuvent pas être interprétées par les machines. Elles peuvent être générées en raison d'une mauvaise collecte de données, d'erreurs de saisie de données, etc. Exemple dans notre data-set, nous avons considérécomme données bruyantes les attributs comme le TM, l'EPS etc car pour un début nous n'avons pas vu comment ces attributs devaient contribuer ou faciliter le processus d'orientation.

1. Méthode Binning: Cette méthode fonctionne sur des données triées afin de les lisser. L'ensemble des données est diviséen segments de taille égale, puis diverses méthodes sont exécutées pour accomplir la tâche. Chaque segmentéest traitéséparément. On peut remplacer toutes les données d'un segment par sa moyenne ou les valeurs limites peuvent être utilisées pour terminer la tàache.

2. Régression : Ici, les données peuvent être lissées en les adaptant à une fonction de régression. La régression utilisée peut être linéaire (ayant une variable indépendante) ou multiple (ayant plusieurs variables indépendantes).

3. Clustering : Cette approche regroupe les données similaires dans un cluster. Les valeurs aberrantes peuvent ne pas être détectées ou elles tomberont en dehors des clusters.

précédent sommaire suivant