WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse multidimensionnelle de la pauvreté par approche de l'analyse de données. Application à  la ville de Kinshasa

( Télécharger le fichier original )
par Samuel Kalombo
Université de Kinshasa RDC -  2012
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

8. Analyse factorielle des correspondances multiples

L'analyse des correspondances multiples (ACM) est une technique de description de données qualitatives : on considère ici n individus décrits par p variables X1, X2, .... Xp à m1, m2,...,mp catégories. Cette méthode est particulièrement bien adaptée à l'exploration d'enquête où les questions sont à réponses multiples.

Sur le plan formel il s'agit d'une application de l'analyse des correspondances au tableau disjonctif complet des m1 + m2 +...+mp indicatrices des catégories. Cette méthode peut être considérée comme l'équivalent de l'analyse en composantes principales pour les données qualitatives.

Codage des individus

Les données peuvent être rassemblées dans un tableau de type Individus × variables. Les lignes représentent les individus, les colonnes représentent les variables : à l'intersection de la ligne i et de la colonne j, se trouve la valeur xij de l'individu i pour la variable j. Naturellement, les valeurs xij sont des codifications qui ne possèdent pas de propriétés numériques. Si la variable j est la couleur des yeux des individus, cette couleur peut être codifiée ainsi : bleu = 1, blanc = 2. Il est clair que la moyenne entre bleu et blanc n'a pas de sens numériques.

Une autre façon de présenter ces mêmes données est de construire un tableau Disjonctif Complet (voir tableau 2.1). Dans ce tableau, les lignes représentent les individus et les colonnes représentent les modalités des variables : à l'intersection de la ligne i et de la colonne j on trouve xij qui vaut 1 ou 0 selon que l'individu i possède la modalité j ou non. L'origine de la terminologie Tableau Disjonctif Complet est la suivante : l'ensemble des valeurs xij d'un même individu, pour les modalités d'une même variable, comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif).

Tableau 2.1 : tableau disjonctif complet

Il existe d'autres formes de représentation des données : l'hyper tableau de contingence et le tableau de Burt (tableau 2.2). Le tableau de Burt est construit en multipliant le tableau disjonctif complet avec sa transposé T'T.

On appelle Analyse Factorielle des Correspondances Multiples (ACM) des variables (X1, ..., Xp) relativement à l'échantillon considéré l'AFC réalisée soit sur la matrice X appelée tableau disjonctif complet, soit sur la matrice de Burt B (A. Baccini et P. Besse) ( Springer, 359-368 (1996)

Tableau 2.2 : tableau de Burt

Analyse factorielle de correspondances appliquée au Tableau Disjonctif Complet

L'analyse factorielle de correspondances (AFC) est conçue pour traiter des tableaux de fréquences issues d'un tableau de contingence. En revanche, si on applique les principes de l'AFC et la métrique de khi-deux à un TDC, on aboutira aux mêmes axes factoriels (voir Gilbert SAPORTA pour la démonstration, Probabilité, Analyse de données et statistique 2006). Mais, dans ce cas, ces calculs doivent être réinterprétés en fonction de la nature particulière du tableau. Ces calculs, munis de cette nouvelle interprétation, constituent une méthode à part entière ; d'où l'introduction du vocale Analyse des correspondances multiples. L'AFC d'un TDC n'est qu'une façon pratique de réaliser les calculs, d'ailleurs incomplète puisqu'elle ignore la notion de variables et donc ne fournit aucun résultat les concernant. Cela étant nous suivrons cette démarche historique et commode pour présenter l'Analyse des correspondances multiples.

Nuage des individus

Un individu est représenté par les modalités qu'il possède. Pour calculer la distance entre deux individus on utilise la métrique de khi-deux. Plus précisément, la distance entre les individus i et i' s'écrit :

Les coordonnées des points lignes (les composantes principales) s'obtiennent en diagonalisant le produit suivant :

Avec T : le tableau disjonctif complet, D-1 la transposée matrice des effectifs marginaux des modalités et K le nombre des variables. Les vecteurs propres du produit seront les composantes principales des individus.

Nuage des modalités

La modalité k est représentée par le profil de la colonne k. les nombres du TDC ne peuvent prendre que les valeurs 0 ou 1, le profil de la colonne k ne contient à son tour que deux valeurs possibles : 0 ou 1. La distance entre deux modalités k et h est définie par :

Les coordonnées des variables sont les vecteurs propres du produit suivant 

Remarque : dans ce travail nous nous sommes intéressés directement aux composantes principales pour obtenir directement les coordonnées factorielles des profils lignes et colonnes. Les ouvrages d'analyse des données donnent aussi les formules pour trouver les facteurs. En analysant les facteurs et les composantes principales on constate une parfaite symétrie entre les résultats de deux profils. Cette symétrie conduit alors à des représentations simultanées des deux profils sur un même plan.

Relation des transitions

Les coordonnées des profils lignes et les coordonnées des profils colonnes sont reliées par des formules simples dont le premier intérêt est d'éviter de réaliser deux diagonalisations. On diagonalisera la matrice la plus petite.

Avec ? ?? la á nième coordonnée des variables, Fá la á nième coordonnée des individus et ëá nième la á nième valeur propre. Il faut noter que les deux diagonalisations donnent les mêmes valeurs propres.

Pratique de L'analyse factorielle des correspondances multiples

L'interprétation des résultats d'une analyse factorielle des correspondances multiples se fait comme une analyse factorielle des correspondances et comme en analyse en composantes principales. On prendra garde ici au fait que les pourcentages d'inertie n'ont qu'un intérêt restreint. La sélection et l'interprétation des axes factorielles se fait essentiellement à l'aide des contributions des variables actives et des valeurs-tests associées aux variables supplémentaires.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Je voudrais vivre pour étudier, non pas étudier pour vivre"   Francis Bacon