3.3.1.3 Choix des variables les plus discriminantes
Dans un objectif de ne retenir dans la fonction discriminante
que les facteurs les plus pertinents, la méthode discriminante pas
à pas a été utilisée. La méthode pas
à pas progressive (stepwise) permet d'obtenir un modèle
performant évitant les variables qui n'apportent que peu d'information
au modèle et en même temps elle pallie certains problèmes
de redondance et de multicolinéarité.
Le tableau 11 nous donne les variables qui ont été
prises en compte dans le modèle. Tableau 11 : Liste des
variables introduites/éliminées de l'analyse
|
|
Variables
introduites/éliminéesa,b,c,d
|
|
Pas
|
Introduite
|
Lambda de Wilks
|
|
Statistique
|
ddl1
|
ddl2
|
ddl3
|
F exact
|
|
Statistique
|
ddl1
|
ddl2
|
Signification (á)
|
|
1
|
Conakry
|
0,558
|
1
|
1
|
7550
|
5979,317
|
1
|
7550
|
0,000
|
|
2
|
Rural
|
0,442
|
2
|
1
|
7550
|
4765,222
|
2
|
7549
|
0,000
|
|
3
|
N'Zérékoré
|
0,427
|
3
|
1
|
7550
|
3382,984
|
3
|
7548
|
0,000
|
|
4
|
Kankan
|
0,409
|
4
|
1
|
7550
|
2724,403
|
4
|
7547
|
0,000
|
|
5
|
Faranah
|
0,387
|
5
|
1
|
7550
|
2392,912
|
5
|
7546
|
0,000
|
|
6
|
Indépendant agricole
|
0,382
|
6
|
1
|
7550
|
2036,245
|
6
|
7545
|
0,000
|
|
7
|
Aucun niveau d'instruction
|
0,378
|
7
|
1
|
7550
|
1770,571
|
7
|
7544
|
0,000
|
|
8
|
Labé
|
0,377
|
8
|
1
|
7550
|
1560,125
|
8
|
7543
|
0,000
|
|
9
|
Indépendant non agricole
|
0,375
|
9
|
1
|
7550
|
1395,254
|
9
|
7542
|
0,000
|
|
10
|
Supérieur
|
0,374
|
10
|
1
|
7550
|
1260,866
|
10
|
7541
|
0,000
|
|
11
|
Technique professionnelle
|
0,373
|
11
|
1
|
7550
|
1149,931
|
11
|
7540
|
0,000
|
|
12
|
Marié
monogame
|
0,373
|
12
|
1
|
7550
|
1057,311
|
12
|
7539
|
0,000
|
|
13
|
Âge chef du ménage
|
0,372
|
13
|
1
|
7550
|
977,168
|
13
|
7538
|
0,000
|
|
14
|
Salarié public
|
0,372
|
14
|
1
|
7550
|
908,458
|
14
|
7537
|
0,000
|
|
15
|
Kindia
|
0,372
|
15
|
1
|
|
848,585
|
15
|
7536
|
0,000
|
Source : Calcul de l'auteur sur les données de l'ELEP 2007
sous SPSS
À chaque pas, la variable qui minimise le lambda de Wilks
global est introduite.
a. Le nombre maximum de pas est 50.
b. Le F pour introduire partiel minimum est 3.84.
c. Le F partiel maximum pour éliminer est 2.71.
d. Seuil du F, tolérance ou VIN insuffisant pour la
poursuite du calcul.
39
Mémoire de fin d'études
La variable offrant la plus grande discrimination qui entre la
première dans le modèle est « Conakry » ensuite, la
deuxième variable choisie est « rural » de telle sorte que
cette paire de variables entraîne le plus de séparation possible
entre les groupes. Et ainsi de suite, les variables entrent dans le
modèle, une à la fois, de façon à augmenter la
discrimination entre les groupes. À chaque étape, on
vérifie s'il est possible de retirer du modèle une variable
déjà incluse. La dernière variable à rentrer dans
le modèle est « Kindia ».
Les variables « Conakry », «
N'Zérékoré », « Kankan », « Faranah
», « Rural », « Indépendant agricole », «
Aucun niveau d'instruction », « Labé », « «
Indépendant non agricole » « Supérieur », «
Technique professionnelle », « Marié monogame », «
Âge du chef de ménage », « Salarié public »
et « Kindia » retenues dans la construction du modèle sont
toutes significatives au seuil de 0,05.
Le tableau 12 permet d'identifier les variables responsables
de multicolinéarité entre les variables. Dès qu'une
variable est détectée comme étant responsable d'une
multicolinéarité, elle n'est pas prise en compte pour le calcul
des statistiques de multicolinéarité des variables suivantes.
Ainsi dans un cas extrême où deux variables seraient identiques,
seule l'une des deux variables sera éliminée des calculs. Les
statistiques affichées sont les tolérances.
La tolérance est une statistique utilisée pour
déterminer l'indépendance entre les variables
(c'est-à-dire en vérifiant s'il y a une relation linéaire
entre eux), si une variable a une tolérance faible alors il contribue
moins d'information au modèle, et il peut être une source de
problème.
Tableau 12 : Liste des variables absentes de
l'analyse discriminante
|
Variables éliminées
|
Tolérance
|
Tolérance minimale
|
F pour introduire
|
Lambda de Wilks
|
|
Taille du ménage
|
0,879
|
0,493
|
0,417
|
0,372
|
|
Salarié privé
|
0,660
|
0,403
|
0,837
|
0,372
|
|
Sans emploi
|
0,379
|
0,266
|
0,816
|
0,372
|
|
Célibataire
|
0,939
|
0,493
|
0,003
|
0,372
|
|
Marié polygame
|
0,452
|
0,449
|
0,371
|
0,372
|
|
Divorcé/Séparé
|
0,957
|
0,493
|
0,583
|
0,372
|
|
Veuf (ve)
|
0,845
|
0,492
|
1,041
|
0,372
|
|
Primaire
|
0,549
|
0,394
|
1,410
|
0,372
|
|
Secondaire 1
|
0,708
|
0,493
|
0,120
|
0,372
|
|
Mamou
|
0,599
|
0,493
|
0,596
|
0,372
|
Source : Calcul de l'auteur sur les données de l'ELEP 2007
sous SPSS
40
Mémoire de fin d'études
Les variables « Taille du ménage », «
Salarié privé », « Sans emploi », «
Célibataire », « Marié polygame », «
Divorcé/Séparé », « Veuf (ve) », «
Primaire » et « Mamou » ont été
éliminées du modèle pour cause de
multicolinéarité ou de redondance d'information. Toutes ces
variables ont des tolérances faibles et elles ont des valeurs du Fisher
inférieures aux critères (le F pour introduire partiel minimum
est 3.84).
Le tableau 13 montre la valeur de lambda de chaque pas de
l'algorithme, on peut accepter les 13 variables au niveau de signification de
0,05.
Tableau 13 : Lambda de Wilks de chaque pas de
l'algorithme
|
Pas
|
Nombre de variables
|
Lambda
|
ddl1
|
ddl2
|
ddl3
|
F exact
|
|
Statistique
|
ddl1
|
ddl2
|
Signification (á)
|
|
1
|
1
|
0,558
|
1
|
1
|
7550
|
5979,317
|
1
|
7550
|
0,000
|
|
2
|
2
|
0,442
|
2
|
1
|
7550
|
4765,222
|
2
|
7549
|
0,000
|
|
3
|
3
|
0,427
|
3
|
1
|
7550
|
3382,984
|
3
|
7548
|
0,000
|
|
4
|
4
|
0,409
|
4
|
1
|
7550
|
2724,403
|
4
|
7547
|
0,000
|
|
5
|
5
|
0,387
|
5
|
1
|
7550
|
2392,912
|
5
|
7546
|
0,000
|
|
6
|
6
|
0,382
|
6
|
1
|
7550
|
2036,245
|
6
|
7545
|
0,000
|
|
7
|
7
|
0,378
|
7
|
1
|
7550
|
1770,571
|
7
|
7544
|
0,000
|
|
8
|
8
|
0,377
|
8
|
1
|
7550
|
1560,125
|
8
|
7543
|
0,000
|
|
9
|
9
|
0,375
|
9
|
1
|
7550
|
1395,254
|
9
|
7542
|
0,000
|
|
10
|
10
|
0,374
|
10
|
1
|
7550
|
1260,866
|
10
|
7541
|
0,000
|
|
11
|
11
|
0,373
|
11
|
1
|
7550
|
1149,931
|
11
|
7540
|
0,000
|
|
12
|
12
|
0,373
|
12
|
1
|
7550
|
1057,311
|
12
|
7539
|
0,000
|
|
13
|
13
|
0,372
|
13
|
1
|
7550
|
977,168
|
13
|
7538
|
0,000
|
|
14
|
14
|
0,372
|
14
|
1
|
7550
|
908,458
|
14
|
7537
|
0,000
|
|
15
|
15
|
0,372
|
15
|
15
|
7550
|
848,585
|
15
|
7536
|
0,000
|
Source : Calcul de l'auteur sur les données de l'ELEP 2007
sous SPSS
41
Mémoire de fin d'études
|
|