WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Classification de la population en catégories socio-économiques : méthodologie et application pratique

( Télécharger le fichier original )
par Mustapha HADD
Institut national de statistiques et d'économie appliquée - Ingénieur d'Etat Option : Démographie 1999
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

V. Méthodologie de l'analyse des correspondances multiples

Avant de lancer l'ACM, on a vu opportun de se baser sur un découpage spatial en distinguant les deux milieux : urbain et rural. Cette distinction est très intéressante pour cette étude socio-économique. En effet, il existe d'énormes disparités entre les ruraux et les citadins du point de vue des niveaux de vie. Les pauvres au sein du milieu rural représentent 20,54% alors que les pauvres parmi les citadins ne représentent que 8,11%. Les ruraux n'ont pour ressources que celles qu'ils tirent péniblement de leur milieu naturel, tandis que les citadins occupent des professions qui génèrent un revenu plus ou moins important.

Dans notre fichier de données les ruraux représentent 56,40% de l'ensemble des individus soit environ 11064 individus. Les citadins quant à eux représentent 43,60% soit 8554 individus. De plus cette distinction entre les deux milieux nous a permis de réduire davantage le nombre total d'individus.

Les variables dites actives retenues pour l'analyse des correspondances multiples pour les deux sous-fichiers à savoir le fichier des ruraux et le fichier des citadins, sont au nombre de 13 variables :

v Profession principale (8 modalités).

v Branche d'activité (12 modalités).

v Situation dans la profession (5 modalités)

v Plus haut diplôme obtenu(7 modalités).

v Dernière classe fréquentée ( 5 modalités )

v Les tranches d'âges (5modalités).

v Les classes de dépenses (10 modalités).

v Le sexe de l'individu (2 modalités).

v Le lieu de naissance (3 modalités).

v Le lien de parenté avec le chef du ménage (7 modalités).

v Situation familiale (4 modalités).

v Sexe du chef du ménage (2 modalités).

v Niveau de pauvreté (2 modalités ).

Ces 13 variables actives engendrent au total 72 modalités. Celles-ci sont ensuite utilisées pour le recodage disjonctif complet. En effet, l'ACM ne s'applique que sur des tableaux binaires ne comportant que de 0 et des 1. Le codage disjonctif complet présente des propriétés très intéressantes, les procédures de calculs sont simplifiées ainsi que les règles d'interprétations. Le logiciel STATlab permet le recodage disjonctif complet des variables qualitatives automatiquement après le lancement de l'ACM.

Le codage disjonctif complet consiste à transformer une variable qualitative à r modalités en r variables binaires indicatrices de chaque modalité. Il est disjonctif parce que toutes les modalités d'une variable qualitative s'excluent mutuellement et il est complet parce qu'à tout individu correspond une modalité de réponse et une seule. Par exemple, à partir de la variable "S_indiv" qui indique le sexe de l'individu, on construit deux nouvelles variables binaires notées "S_Masc" et "S_Fémi" codées de la manière suivante :Absence de modalité : 0Présence de modalité : 1

Tableau 4. : Le recodage disjonctif complet d'une variable qualitative

Individu

...

S_Masc

S_Fémi

....

1

2

3

4

5

.

.

.

 

1

0

0

0

1

.

.

.

0

1

1

1

0

.

.

.

 

C'est-à-dire que les individus 1 et 5 sont de sexe masculin et les individus 2, 3 et 4 sont de sexe féminin.

IV.1 L'ACM du milieu urbain

L'ACM du milieu urbain a donné environ 26 axes factoriels qui est un nombre très élevé. Ceci est dû au fait que les premiers axes factoriels ont une inertie expliquée très faible (11,19% pour le premier axe et 9.52% pour le deuxième axe). Dans ce cas on est obligé de conserver un nombre important d'axes factoriels ce qui va alourdir le temps de calcul lorsqu'on effectue des classifications. On a conservé 9 axes qui ont un cumul d'inerties expliquées de 61,11%.

Figure 2. : Les inerties expliquées des axes factoriels obtenus à l'aide de l'analyse des correspondances multiple du milieu urbain

Les premiers axes factoriels choisis remplaceront donc les variables qualitatives initiales. Les distances entre individus sont alors calculées dans l'espace des premiers axes factoriels avec la distance euclidienne usuelle. Les méthodes de classifications peuvent cependant être menées sur de grand ensemble comportant des milliers ou des dix milliers d'individus.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius