WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Extraction des connaissance à  partir d'un datamart à  l'aide de l'arbre de décision application aux données médicales

( Télécharger le fichier original )
par Richard KANGIAMA LWANGI
Université de Kinshasa RDC - Licence 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

A. TABLES FICHE

LIBELLE

TYPE

TAILLE

OBSERVATION

1

NF

INTEGER

23

Numéro fiche

2

NOM

POSTNOM

STRING

50

Nom et post nom

3

AGE

INTEGER

4

Age

4

ETAT CIVIL

STRING

56

Etat civil

5

NATIONALITE

STRING

26

Nationalité

6

ADRESSE

VARCHAR

50

Adresse de la maman

7

NIVEAU ETUDES

STING

7

Niveau d'études de la maman

[69]

B .TABLE ACCOUCHEMENT

N

°

LIBELLE

TYPE

TAILL E

OBSERVATION

1

NUMERO ORDRE

INTEGER

23

Numéro d'ordre

(primary key)

2

NA

INTEGER

50

Numéro ANT OBSTRI

3

NF

INTEGER

4

Numéro fiche

4

ETAT SER

STRING

26

Etat sérologique

5

SEXE

STRING

50

Sexe de l'enfant

6

NIVEAU ETUDES

STING

7

Niveau d'études de la maman

7

POIDS

INTEGER

6

Poids de l'enfant à la naissance

8

AP GAR

INTEGER

4

Apparence=peau colorante ,P=cris

Grimace ou geste,
Activité=réactivité Respiration

9

DIAGNOSTI QUE

STRING

123

Diagnostique

8

PROVENAN CE (CPN)

STRING

56

Lieu de provenance

A.TABLE ANT OBSTRI

N

°

LIBELLE

TYPE

TAILL E

OBSERVATION

2

NA

INTEGE R

4

Numéro ANT OBSTRI

3

GRAVIDA

INTEGE R

4

Nombre des grossesses déjà attrapées

4

PARITE

INTEGE R

4

Nombre ,des fois que la

femme a accouche

5

AVORTEM ENTS

INTEGE R

4

Nombre de fois que la femme

a avorté (spontané ou
provoqué)

6

DECES

INTEGE R

4

Nombre d'enfant né vivant

décédé y compris les morts né

[70]

2 .CONCEPTION D'UN DATA MART Etape 1 : Définir le processus à analyser

La procédure ou fonction fait référence au sujet de notre mini entrepôt des données

Nous déterminons le processus métier de l'hôpital saint joseph concerne par notre étude :

Les accouchements. dont voici la modélisation de la base de données de l'entrepôt de données

Etape 2 : Déterminer le niveau de granularité des données

Choisir le grain signifie décider exactement de ce que représente un enregistrement d'une table de faits.par exemple l'entité accouchement représente les faits relatifs à chaque accouchement et devient la table de faits du schéma en étoile des accouchements.

Par conséquent, le grain de la table de faits accouchement est un accouchement réalisé à la maternité.

A prés avoir choisi le grain de la table de faits nous allons commencer à identifier les dimensions de la tables de faits .

A titre d'illustration, les entités fiche et ant obstetrie serviront de références aux données concernant les accouchements et deviendront les tables de dimensions du schéma en étoile des accouchements.

Nous ajoutons aussi le Temps comme dimension principale, car il est toujours présent dans le schéma en étoile.

Etape 3 : choisir les dimensions

Les dimensions déterminent le contexte dans lequel nous pourrons poser des questions à propos des faits établis dans la table de faits .Un ensemble de dimensions de dimensions bien constitué rend le mini entrepôt de données compréhensible et en simplifie l'utilisation.

Nous identifions les dimensions avec suffisance de détails, pour décrire des choses telles que les clients et les propriétés avec granularité correcte.

Par exemple, toute personne de la dimension fiche est décrit par

les attributs :NF,NOMPOSTNOM,AGE,ETAT
CIVIL,NATIONALITE,ADRESSE,NIVEAUETUDES ;

[71]

la dimension ant obstetri est décrit par les attributs suivants : NA, GRAVIDA ,PARITE,AVORTEMENT,DECES

,la dimension temps est décrit par les attributs suivants : HEURE ,JOURS ,MOIS et ANNEE .

Etape 4 : identifier les métriques(faits)

Pou notre cas le fait est accouchement. les métrique sont les données numériques PROVENANCE(CPN), ETATSER,POIDS ,AP GAR.

Notons que les autres étapes qui suivent exclusivement pour la construction d'un entrepôt des données mais pour notre travail nous construisons un DataMart donc un sous ensemble d'un entrepôt des données donc nous estimons que nous pouvons nous arrêter ace points.

Mesures

Dans l'exemple présenté ci-haut ,les mesures sont définies par la table ACCOUCHEMENT et sont les suivantes :

PROVENANCE ;

ETATSER ; POIDS ;

AP GAR.

Dimensions

Notre veut effectuer des analyses selon divers axes d'observation.

Axe temps

Année

Mois

Jours

Axe fiche

Numéro fiche, Nom post nom, Age,

Etat civil,

Nationalité,

Adresse,

Niveau études ; Axe anti obstreti

Gravida ,

[72]

Parité,

Avortement, Décès

3.SCHEMA EN ETOILE DE L'ENTREPOT SOUS SQL serveur 2008

FIG IV 4:Schéma en étoile des accouchements

Etant donné que nous construisons un datamart nous souhaitons nous arrêter à ce étape .pour expliciter, justifiée notre études de cas.

4.MODULE DE DATAMINING[10],

Ce module de datamining réalisé avec le logiciel SPAD pour nous facilite l'interprétation .Nous avons importé vers un fichier Excel le résultat d'une requête sur notre DataMart à partir de la nous avons importé ces données vers SPAD pour faire l'ACP.

[73]

Les Analyses Factorielles

Les méthodes factorielles établissent des représentations synthétiques de vastes tableaux de données, en général sous forme de représentations graphiques.

Ces méthodes ont pour objet de réduire les dimensions des tableaux de données de façon à représenter les associations entre individus et entre variables dans des espaces de faibles dimensions.

Les méthodes d'analyse factorielle consistent à rechercher des sous-espaces de faibles dimensions qui ajustent au mieux le nuage de points des individus et le nuage de points des variables.

Les proximités mesurées dans ces sous-espaces doivent refléter au mieux les

Proximités réelles. L'espace de représentation obtenu est appelé espace factoriel. Les méthodes diffèrent selon la nature des variables analysées : il peut s'agir de variables continues, de variables nominales ou de catégories dans le cas des tableaux de contingences. Les lignes peuvent être des individus ou des catégories. Pour plus de précisions

Analyse en composantes principales

L'Analyse en Composantes Principales est une technique de description statistique conduisant à des représentations graphiques approchées (mais en un certain sens optimales) du contenu d'un tableau de données: description simultanée des liaisons entre variables et des similitudes entre individus.

C'est aussi un outil de réduction de la dimensionnalité d'un ensemble de variables continues, utilisable comme intermédiaire de calcul en vue d'analyses ultérieures.

Dans ce chapitre, nous verrons que l'ACP est un outil exploratoire qui permet de visualiser et de découvrir les phénomènes tels qu'ils sont décrits par les données.

[74]

TABLEAU DE CONTINGENCE SYNTHETIQUE :

FIG IV 5:Vue de l'ensemble des données avec SPAD Description des tranches d'âge par intervalle :

Tranche d'âge 1 : de 19 à 21 ans Tranche d'âge 2 : de 21 à 2 3 ans Tranche d'âge 3 : de 23 à 25 ans Tranche d'âge 4 : de 25 à 27 ans Tranche d'âge 5 : de 27 à 29 ans Tranche d'âge 6 : de 29 à 31 ans Tranche d'âge 7 : de 31à 33 ans Tranche d'âge 8:de 33 à 35 ans

[75]

Tranche d'âge 9 : de 35 à 37 ans Tranche d'âge 10 : de 37 à plus

[76]

ANALYSE DES DONNEES AVEC SPAD : ANALYSE FACTORIEL DE CORRESPONDANCE

ANALYSE DES CORRESPONDANCES BINAIRES VALEURS PROPRES

APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.0397

SOMME DES VALEURS PROPRES .... 0.0397

HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES

+ + + + + +

| NUMERO | VALEUR | POURCENT.| POURCENT.| |

|

|

PROPRE |

| CUMULE

|

|

+

+

+

+

+

+

| 1

|

0.0360 |

90.79 | 90.79

|

******************************************************************************** |

| 2

|

0.0035 |

8.73 | 99.52

|

******** |

| 3

|

0.0002 |

0.47 | 100.00

|

* |

| 4

|

0.0000 |

0.00 | 100.00

|

* |

+

+

+

+

+

+

COORDONNEES,

CONTRIBUTIONS

DES FREQUENCES

SUR

LES AXES 1 A 4

FREQUENCES ACTIVES

+

|

|

FREQUENCES

 

+ |

+

 

COORDONNEES

 

+ |

+

 

CONTRIBUTIONS

 

+ |

+

 

COSINUS CARRES

+

|

|

| IDEN - LIBELLE COURT

P.REL

DISTO |

1

2

3

4

0

|

1

2

3

4

0

|

1

2

3

4

0 |

+

 
 

+

 
 
 
 
 

+

 
 
 
 
 

+

 
 
 
 

+

| CPN - provenance CPN

2.90

0.26 |

-0.47

0.19

-0.06

0.00

0.00

|

18.0

31.1

48.0

0.0

0.0

|

0.85

0.14

0.01

0.00

0.00 |

| GEST - la

gestation de la m

0.07

0.01 |

0.05

-0.03

0.01

-0.05

0.00

|

0.0

0.0

0.0

99.9

0.0

|

0.41

0.14

0.01

0.44

0.00 |

| PAR - la

parite de la mere

5.83

0.43 |

-0.64

-0.12

0.01

0.00

0.00

|

66.6

25.1

2.4

0.0

0.0

|

0.96

0.03

0.00

0.00

0.00 |

| AVOR - le

nombre de fois av

1.02

0.36 |

-0.45

0.38

0.10

0.00

0.00

|

5.8

43.6

49.6

0.0

0.0

|

0.57

0.41

0.03

0.00

0.00 |

| POID - le

poids de l'enfant

90.17

0.00 |

0.06

0.00

0.00

0.00

0.00

|

9.6

0.2

0.0

0.1

0.0

|

1.00

0.00

0.00

0.00

0.00 |

+

 
 

+

 
 
 
 
 

+

 
 
 
 
 

+

 
 
 
 

+

COORDONNEES,

CONTRIBUTIONS ET

COSINUS

CARRES

DES INDIVIDUS

 
 
 
 
 
 
 
 
 
 
 
 
 
 

AXES 1 A 4

 
 
 
 
 
 
 
 
 

+

 
 

+

 

+

 

+

 

+

|

INDIVIDUS

 

|

COORDONNEES

|

CONTRIBUTIONS

|

COSINUS CARRES

|

|

 
 

+

 

+

 

+

 

|

| IDENTIFICATEUR

 

P.REL

DISTO | 1

2 3 4

0 | 1

2 3 4

0 | 1

2 3 4

0 |

+

 
 

+

 

+

 

+

 

+

 

| Tr1

 

9.53

0.03

| 0.16

0.08 0.01 0.00

0.00

| 6.8

16.1 10.8 8.0

0.0

| 0.81

0.18 0.01 0.00

0.00 |

 

| Tr2

 

9.94

0.02

| 0.05

0.12 -0.02 0.00

0.00

| 0.6

40.5 17.0 12.7

0.0

| 0.13

0.85 0.02 0.00

0.00 |

 

| Tr3

 

9.47

0.04

| 0.21

0.01 0.01 0.00

0.00

| 11.4

0.3 6.5 5.3

0.0

| 0.99

0.00 0.00 0.00

0.00 |

 

| Tr4

 

10.17

0.01

| -0.12

0.03 -0.01 0.00

0.00

| 3.8

3.4 3.2 6.9

0.0

| 0.92

0.08 0.00 0.00

0.00 |

 

| Tr5

 

9.31

0.02

| 0.13

-0.04 -0.01 0.00

0.00

| 4.6

4.2 8.7 6.7

0.0

| 0.91

0.08 0.01 0.00

0.00 |

 

| Tr6

 

11.65

0.18

| -0.43

0.01 0.01 0.00

0.00

| 59.4

0.4 4.1 1.7

0.0

| 1.00

0.00 0.00 0.00

0.00 |

 

| Tr7

 

9.06

0.03

| 0.16

-0.04 0.02 0.00

0.00

| 6.6

3.5 27.0 5.5

0.0

| 0.93

0.05 0.02 0.00

0.00 |

 

| Tr8

 

10.02

0.00

| 0.01

-0.04 0.00 0.00

0.00

| 0.0

5.1 0.8 8.2

0.0

| 0.07

0.92 0.01 0.00

0.00 |

 

| Tr9

 

10.51

0.02

| -0.13

-0.05 0.01 0.00

0.00

| 5.1

8.1 1.8 55.6

0.0

| 0.87

0.13 0.00 0.00

0.00 |

 

| Tr10

 

10.34

0.01

| 0.07

-0.08 -0.02 0.00

0.00

| 1.6

18.4 20.0 3.5

0.0

| 0.45

0.51 0.03 0.00

0.00 |

+

 
 

+

 

+

 

+

 

+

[77]

ARBRE DE DECISION

FIG IV 6:Arbre de décision

[78]

5.GRAPHIQUE

FIG IV 7:Graphique

Pour l'axe 2 :

[79]

6. INTERPRETATION DES RESULTATS 1. Détermination des axes

? pour les variables (25%) Pour l'axe 1

La parité de la mère à contribué à 66% à la création de l'axe 1 elle est de coordonnées négative.

Pour l'axe 2

La parité de la mère à contribué de 25% à la création de l'axe 2 elle est de coordonnées négative.

Le nombre de fois que la maman à accoucher à contribué de 43,6% à la création de l'axe 2 elle est de coordonnées positive.

La consultation pré natale à contribué de 31, 1% à la création de l'axe 2 elle est de coordonnées négative.

Pour l'axe 3

La consultation pré natale à contribué de 48% à la création de l'axe 3 elle est de coordonnées positive.

Le nombre de fois que la maman à accoucher à contribué de 49,6% à la création de l'axe 3 elle est de coordonnées positive.

Pour l'axe 4

La gestite a contribué de 99% à la création de l'axe 3 elle est de coordonnées négative.

? pour les individus (10%) Pour l'axe 1 :

La tranche d'âge 3 à contribué de 11,4% à la création de l'axe1 elle est de coordonnées positive.

La tranche d'âge 6 à contribué de 59,4% à la création de l'axe1 elle est de coordonnées négative.

Dans cette tranche 2, d'âge que les mamans ont beaucoup avorté.

[80]

La tranche d'âge 1 à contribué de 16 ,1% à la création de l'axe 2 elle est de coordonnées positive.

La tranche d'âge 2 à contribué de 40,5% à la création de l'axe2 elle est de coordonnées positive.

La tranche d'âge 10 à contribué de 18,4% à la création de l'axe2 elle est de coordonnées négative

Pour l'axe 3 :

La tranche d'âge 1 à contribué de 10,8% à la création de l'axe 3 elle est de coordonnées positive.

La tranche d'âge 2 à contribué de 17% à la création de l'axe 3 elle est de coordonnées négative.

La tranche d'âge 7 à contribué de 27% à la création de l'axe 3 elle est de coordonnées positive

La tranche d'âge 10 à contribué de 20% à la création de l'axe 3 elle est de coordonnées négative

Pour l'axe 4 :

La tranche d'âge 2 à contribué de 12,7% à la création de l'axe 4 elle est de coordonnées négative.

La tranche d'âge 9 à contribué de 55,6% à la création de l'axe 4 elle est de coordonnées positive.

2. Interprétation :

La tranche d'âge allant de 29 à 31 est associée à la parité de la mère ou nous pouvons encore dire que la parité explique mieux cette tranche d'âge.

La tranche d'âge allant de 29 à 31 est la tranche d'âge dont les femmes ont accouché beaucoup.

La tranche d'âge 10 est associe à la CPN, nous pouvons ainsi dire que la majorité de ce femme on fait la CPN.

[81]

Nous pouvons encore dire dans la tranche d'âge allant de 21à 23 ans ; les jeunes filles sont souvent poussées à faire l'avortement.

Dans cette tranche 7, d'âge que la majorité des mamans n'ont pas suivi la CPN.la plupart de ces femmes se croient déjà adulte et négligent la CPN.

Dans cette tranche 9, d'âge c'est la tranche d'âge que la majorité de femme on déjà accouche plus d'une fois.

[82]

IV.2.4 DEVELOPPEMENT DE L'APPLICATION [9] A qui l'application est-elle destinée

Notre application est destinée à la direction de la maternité et au service informatique de l'hôpital.

Quels sont les problèmes de l'application résoudra-t-elle ?

L'application résoudra le problème de la gestion des informations notamment l'archivage et permettra aussi d'automatiser le processus manuel.

Comment l'application fonctionnera -t- elle ?

Nous adopterons une architecture à trois niveaux pour séparer l'interface utilisateur de la logique de programmation, et la logique de programmation de la base de données.

[83]

IV.2.4.1 CONCEPTION DE L'APPLICATION DE GESTION DES ACCOUCHEMENTS :

1. Diagramme de classe de l'application

Les Classe : accouchement ,fiche et antécédent obstétrical (c'est-à-dire le passe de la maman concernant la gestation, parité, avortement et décède)

 
 
 
 

ANT OBSTRI

-NA : int

-GRAVIDA : int -PARITE : int -AVORTEMENT : int -DECES : int

+enregistre() +rechercher() +suprimer() +afficher()

Fiche

 

ACCOUCHEMENT

 

-NF : int

-NOMPOSTNOM : char -AGE : int

-ETA CIVIL : char -NATIONALITE : char -ADRESSE : char -NIVEAU D'ETUDES : char

 

-NUM ORDRE : int -NA : int

-NF : int

-NT : int -PROVENANCE : int -ETAT SER : int -SEXE : char

-POIDS : double -AP GAR : int

-DIAGNOSTIQUE : char

+enregistre() +recherche() +suprimer() +afficher()

 
 
 

+enregistre() +recherche() +suprimer() +afficher()

 
 
 
 
 

FIG IV 8:Diagramme de classe

2.Diagramme de cas d'utilisation du système en Général Les acteurs : décideur, administrateur, agent

[84]

utilisateur

Décideur

Visualisation des

données dimensionnelles

Appliquer les Data

mining

Saisie des

information d'un malade

Appliquer les

opérations OLAP

Système

Authentification

au système

« Include »

Administrateur

FIG IV 9:Diagramme de cas d'utilisation

3.Diagramme de séquencé Authentification système

 

:Systèm

:Agen

 

Afficher interface authentification

Saisie des données

Afficher formulaire menu

FIG IV 10:Diagramme de séquence

Opération datamining

FIG IV 12:Formulaire de sécurité

[85]

 

Système

Administrateur

Afficher les données

Application algorithme

Afficher le résultat

Fig. IV 9.diagramme de séquence « Opération de datamining». Analyse OLAP

 

Système

Administrateur

 

Rafraichir les données

Analyse les données

Sauvegarder et archivage de données

Afficher rapport

FIG IV 11:Diagramme de séquence analyse OLAP

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire"   Démocrite