WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Classification de la population en catégories socio-économiques : méthodologie et application pratique

( Télécharger le fichier original )
par Mustapha HADD
Institut national de statistiques et d'économie appliquée - Ingénieur d'Etat Option : Démographie 1999
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III. Recodage des variables

La nature des variables socio-économiques objet de l'étude n'étant pas la même, ceci pose un problème au niveau de l'analyse désirée. Pour résoudre ce problème on transforme les deux variables quantitatives qui sont "l'âge" et "les dépenses annuelles par tête" en variables qualitatives, en procédant par un découpage de l'espace d'arrivé O de la variable quantitative V en classes [Celeux, G., et al., (1989)]  avec

V : I O

V : est la variable quantitative

I : l'ensemble des individus

O : l'espace d'arrivé ( R ou N par exemple)

Ø Pour la variable "dépenses annuelles moyennes par personne", on a adopté le découpage par déciles de L'E.N.N.V.M.90/91. On obtient donc une variable qualitative dénommée  "Cl_dép" et qui a pour modalités

1- Dépenses inférieures à 2306 DH.

2- Dépenses comprises entre 2307 et 2934 DH.

3- Dépenses comprises entre 2935 et 3529 DH

4- Dépenses comprises entre 3530 et 4177 DH.

5- Dépenses comprises entre 4178 et 5064 DH.

6- Dépenses comprises entre 5065 et 6001 DH.

7- Dépenses comprises entre 6002 et 7303 DH.

8- Dépenses comprises entre 7304 et 9062 DH.

9- Dépenses comprises entre 9063 et 12438DH.

10- Dépenses supérieures à 12439 DH.

Pour la variable âge, on choisit les tranches d'âges suivantes

1- 0_14ans : l'individu est âgé de moins de 14 ans révolus

2- 15_24ans : l'âge de l'individu est compris entre 15 et 24 ans révolus.

3- 25_44ans : l'âge de l'individu est compris entre 25 et 44 ans révolus.

4- 45_59ans : l'âge de l'individu est compris entre 45 et 59 ans révolus.

5- 60 et plus : l'âge de la personne est de 60 ans et plus.

Le choix de ces tranches d'âges est en fonction de l'âge à l'activité. Généralement, dans la tranche d'âge de 0 à 14 ans révolus se situent les inactifs. Par contre les retraités se situent dans la dernière tranche d'âge ouverte c'est à dire 60 ans et plus. Il est en effet notable que ce type de découpage entraîne une perte d'information qu'on peut la qualifier de deux manières [Celeux, G., et al., (1989)] :

On perd la distinction entre les objets (ici les individus) d'une même classe.

On perd aussi l'amplitude de la différence entre les objets de deux classes différentes.Le tableau T1 est donc homogène (toutes les variables sont qualitatives) et de dimension 19618 x 14, on exclue les trois variables Fiche, identif et Num_ordre.

IV. Complémentarité entre l'analyse factorielle et la classification

Les données d'enquêtes comportent en général un ensemble de variables qualitatives ayant un ensemble limité de modalités. Les analyses factorielles notamment l'analyse des correspondances multiples s'apprêtent bien à ce type de données. En effet, l'ACM se caractérise par son pouvoir de filtrage. Elle permet également de travailler sur les coordonnées factorielles moins nombreuses que les variables initiales. Elle a l'avantage d'apporter de précieuses informations sur la structure des données et leur interprétation.

Les coordonnées des individus sur les premiers axes factoriels peuvent être prises comme de nouvelles variables quantitatives. Celles-ci résument bien le tableau initial avec moins de variables. Cette dernière stratégie est intéressante à plusieurs titres : elle permet de réaliser des classifications très riches avec un coût réduit de plus ces classifications issues des analyses des correspondances multiples aboutissent à des typologies dont les classes sont très hétérogènes entre elles et leurs éléments sont par ailleurs très homogènes. C'est en effet l'objectif de toute méthode de classification. Malgré l'efficacité de l'ACM comme une étape préalable à une classification, cette stratégie présente une difficulté quant aux choix du nombre d'axes factoriels. Pour remédier à ce problème, on se base généralement sur le cumul des pourcentages des inerties expliqués. Il faut conserver les premiers axes factoriels dont le cumul des inerties expliquées est assez important. Il faut en plus éviter de conserver un axe et rejeter l'autre alors que leurs pourcentages des inerties expliqués sont très voisins. Pour cela on cherche une forte décroissance des inerties expliquées qui sera un bon indicateur du nombre d'axes à retenir.

Comme on l'a déjà indiqué ci-dessus, l'ACM n'est qu'un pré traitement qui simplifie plus ou moins les calculs générés par les méthodes de classification. Elle n'est pas l'objectif de cette étude. L'ACM a pour finalité de réduire le temps de calcul sur machine qui sera en revanche très important si on travaille directement sur les variables du fichier. En effet, lorsqu'on lance la classification hiérarchique sur les individus en utilisant les logiciels STATlab ou SPSS, un message d'erreur s'affiche sur l'écran qui indique que la mémoire est insuffisante pour continuer les calculs. Ce problème est dû au fait que notre fichier de travail est très grand, celui-ci croise un ensemble d'individus dont le cardinal est égal à 19618 et un nombres assez important de variables. Le système est saturé parce que le nombre d'opérations à effectuer est très grand. Par exemple pour le calcul de la matrice de proximité, la machine doit calculer distances avec n = 19618 !

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques"   Hemingway