3.3.1.5 Qualité de la représentation
La qualité de la représentation dépend de
la capacité de la fonction discriminante à reclasser correctement
les individus. Pour cela, on confronte dans un tableau à double
entrée la constitution d'origine des groupes et la constitution
prédite de ces derniers, c'est ce qu'on appelle matrice de confusion, on
calcule ensuite le pourcentage d'individus bien classés. Plus ce
pourcentage est élevé, meilleur est la qualité de
l'analyse.
Quand la taille de l'échantillon total est grande, on
peut calculer les fonctions discriminantes sur une partie de
l'échantillon (environ 70-80%) choisie au hasard, et à l'aide de
ces fonctions, classifier les individus écartés temporairement de
l'analyse. On obtient alors deux tableaux l'un pour l'échantillon
réduit et l'autre pour l'échantillon écarté
temporairement (parfois appelé échantillon de contrôle ou
de validation). Ceci devrait refléter plus adéquatement la
qualité de l'outil de classification.
Mémoire de fin d'études
47
Mémoire de fin d'études
Tableau 19 : Matrice de confusion
(résultats du classement bayésien)
|
Résultats du classementb,c
|
|
|
Niveau de vie
|
Classe(s) d'affectation prévue(s)
|
Total
|
|
|
Pauvre
|
Non Pauvre
|
|
Original
|
Effectif
|
Pauvre
|
4944
|
422
|
5366
|
|
Non Pauvre
|
311
|
1875
|
2186
|
|
%
|
Pauvre
|
92,1
|
7,9
|
100,0
|
|
Non Pauvre
|
14,2
|
85,8
|
100,0
|
|
Validé-croiséa
|
Effectif
|
Pauvre
|
4941
|
425
|
5366
|
|
Non Pauvre
|
315
|
1871
|
2186
|
|
%
|
Pauvre
|
92,1
|
7,9
|
100,0
|
|
Non Pauvre
|
14,4
|
85,6
|
100,0
|
Source : Calcul de l'auteur sur les données de l'ELEP 2007
sous SPSS
a. La validation croisée n'est effectuée que pour
les observations de l'analyse. Dans la validation croisée, chaque
observation est classée par les fonctions dérivées de
toutes les autres observations.
b. 90,3 % des observations originales classées
correctement.
c. 90,2 % des observations validées-croisées
classées correctement.
Ainsi dans notre exemple, 4944 individus ont été
bien reclassés dans le groupe des pauvres et 422 individus ont
été mal classés, grâce aux fonctions
linéaires de Fisher, de même, pour le groupe non pauvre, 1875
individus ont été bien reclassés, et 311 individus ont
été mal reclassés. Au total, 6819 individus (4944+1875)
qui ont été correctement reclassés soit 93,3 % de
réussite ((6819/7552)*100=93,3 %).
Les fonctions discriminantes reclassent bien les individus
avec un taux de réussite de 93,3 %. Ceci démontre que les
fonctions linéaires de Fisher sont d'une très bonne
qualité.
Le groupe d'affectation prévu pour la fonction de
l'analyse factorielle discriminante se résume dans le tableau 20.
Tableau20 : Groupe d'affectation prévu
par la fonction discriminante canonique
|
Pauvre
|
Non pauvre
|
|
Valeur originale
|
5366
|
2186
|
|
Valeur prédite
|
5255
|
2297
|
Source : Calcul de l'auteur sur les données de l'ELEP 2007
sous SPSS
Le taux de reclassement de la fonction discriminante canonique
est de 97,1 %. Donc la fonction discriminante canonique est d'une excellente
qualité.
48
Mémoire de fin d'études
|
|