WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Evaluation de la dynamique spatio-temporelle de l'évolution de la covid a Libreville par une approche machine learning


par Bakari RAMADANE
Institut Africain d’Informatique - Diplôme d’Ingénieur Informaticien 0000
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

c) Préparation des données

Les tâches de préparation comprennent principalement cinq étapes : l'extraction, le traitement des valeurs manquantes, l'encodage, la normalisation et le partitionnement des données

(1) Extraction

On extrait les lignes et les colonnes qui nous seront utiles pour la suite. Dans notre c'est ligne correspondant au pays Gabon (figure14).

 

Figure 13 extraction des lignes et colonnes

(2) Traitement des valeurs manquantes et les jours non-ouvrages

Il est a remarqué le comité de pilotage (COPIL) ne publie pas de rapport sur la situation épidémiologique du Gabon, les jours fériés et les weekends. Ce qui fait que durant les jours non-ouvrages on enregistre automatiquement des valeurs manquantes. Mais les analystes de l'Université John Hopkins, complètent les jours non ouvrages du comité de pilotage (COPIL) par des zéro. Ainsi se pose un problème d'interprétation entre les données manquantes et les valeurs nulles. Les valeurs manquantes de chaque base de données est résumé dans le tableau 6 ci-dessous.

Tableau 6 : récapitulatif des proportions des valeurs manquantes dans les data set

Fichier

Proportion de données manquantes en %

Prétraitement adoptée

covid19_confirmed_case_Gabon.csv

27,57

suppression

Chul.covid.xls

14,28

suppression

Pour les valeurs manquantes et les lignes correspondantes aux jours non-ouvrables, l'imputation avec la moyenne, la médiane ou le mode serait incorrecte car ces données représentent les cas réelssignalés dans le monde entier. Par conséquent, ces données ont été supprimées (figure 15).

 
 

Figure 15a les captures d'écran du dataset avant le nettoyage

Figure 15b les captures d'écran du dataset après le nettoyage

Figure 14 les captures d'écran du dataset avant et après le nettoyage

(3) Encodage,normalisation et partitionnement des données

Les données ont été transformé suivant les formats date pour la colonne date et en forme numérique, pour la colonne contenant les nombre de cas de la maladie de la covid-19.

Pour la normalisation, les données sur le nombre cumules de cas confirme forme une série chronologique monotone et croissante. Ainsi les termes consécutifs sont très proches. Et par conséquentil n'y a pas des valeurs aberrantes. Donc la normalisation ou la standardisation ne sont pas nécessaires dans ce cas.

Ensuite nous avons partitionné les données en deux groupes (voir la figure 16) :

· Les données d'entrainement (75%) et,

· Les données de test (25%)

 
 

Figure16a données du test

Figure 16b données d'entrainement

Figure 15 : partitionnement des données en données d'entrainement et données de test

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire