Memoire Online - Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

Après un aperçu sur les mécanismes de non-réponse nous aborderons dans cette sous section les méthodes de traitement que prévoit la théorie statistique en cas de présence de données manquantes. On note qu'il existe plusieurs méthodes de traitement de données manquantes. Ces méthodes s'appliquent selon la nature du processus et parfois compte tenu de nombre d'observation voire de l'existence de variables auxiliaires.

Parmi les méthodes de traitement de non-réponse, on dénombre deux qui sont plus faciles à mettre en oeuvre. Cependant, elles ne sont pas les plus robustes. Il est apparu dans les services statistiques des Etats en développement de ne rien faire face aux données manquantes. Cette solution est aussi une méthode, elle consiste à travailler avec la base sans se soucier des non-réponses.

La non prise en compte de données manquantes est peu commode pour un statisticien. D'abord, il se trouve face à une base qui n'est pas présentable (incomplète); ensuite les moyennes et les variances sont calculées sur toute la population en assimilant les données manquantes à zéro. Enfin, ces estimateurs sont alors influencés par les individus n'ayant pas répondu au risque de rendre incohérents, les résultats assortis des analyses. En effet, elle accroît le biais des estimations lorsque les non répondants se distinguent des répondants dans leurs comportements par rapport aux variables d'étude.

Une autre solution aussi facile à appliquer est la suppression des individus pour lesquels il manque au moins une valeur d'une variable de la base. La méthode de suppression permet d'utiliser un fichier complet. Plus avantageuse que la première citée, cette solution donne des

estimateurs de l'échantillon retenu sans biais si la non-réponse ne dépend d'aucune variable d'intérêt. Mais ces estimateurs peuvent ne pas refléter la réalité. Car ils sont alors des fonctions des valeurs obtenues pour les répondants qui ont fourni des données complètes uniquement. Ce qui conduit au rejet de cas de non-réponse partielle et entraîne une perte considérable d'information empêchant ainsi l'utilisation du poids que le sondage aurait accordé aux unités statistiques. Et le fait que la taille de l'échantillon se trouve réduite, elle peut conduire à augmenter la variance des estimateurs.

C'est une méthode de redressement de données en présence de non-réponse. Elle est utilisée, en général, pour compenser la non-réponse totale. La repondération vise à ajuster les poids de répondants en vue de compenser la perte d'information due aux non répondants. En d'autres termes c'est une méthode consistant essentiellement à augmenter le poids de sondage de répondants afin de compenser les non répondants. Cette méthode a cependant des principes et des critères d'application. Il faut que la non-réponse soit totale, qu'on ne dispose pas d'informations auxiliaires et que le mécanisme de réponse soit homogène dans la population

Avant de procéder à l'ajustement de poids des répondants, on effectue une classification des unités statistiques en j classes. Ces j classes regroupent tous les individus de

l'échantillon, les répondants comme les non répondants, de telle sorte qu'on ait

désigne l'échantillon et les si la classe i de l'échantillon avec i=1, 2, ..., j. Cependant, on doit s'assurer pour ces groupes que la variable d'intérêt n'a pas d'influence sur la décision de répondre ou de ne pas répondre. La constitution des classes doit être pertinente pour l'analyse qu'on envisage mener. Par exemple, pour la production des entreprises, on ne fera pas un regroupement par ordre alphabétique des sigles ni des noms. On fera plutôt une catégorisation basée sur le chiffre d'affaires ou sur la taille de celles-ci ou sur tout autre critère pertinent.

Ayant les classes on pourra ainsi calculer le poids des unités répondantes après ajustement pour la non-réponse qui vaut:

w_i

* i

P_c

Où P_c et w_i désignent respectivement le taux de réponse dans la classe c et le poids de l'individus i avant l'ajustement.

On peut calculer l'estimateur par repondération en considérant les c classes, comme

Avec y_ri qui désigne la moyenne des répondants dans la classe i. On démontre que le

biais de non-réponse est une espérance conditionnelle de l'échantillon total et qu'il vaut zéro pour le mécanisme de non-réponse uniforme à l'intérieur des classes. En effet, le biais s'écrit selon l'expression suivante :

i k s

= ?

Où Pi désigne la moyenne pondérée, par le poids avant l'ajustement, des taux de réponses de la classe i. Et y_i désigne la moyenne de la variable dans la classe considérée et vaut :

Lorsque l'expression du biais est nulle, on peut se retrouver avec des classes à l'intérieur desquelles la repondération serait uniforme c'est-à-dire que la probabilité de répondre pour un individu serait identique à celle des autres individus de la classe. Il s'agit de groupes homogènes. En effet, on dira qu'il s'agit de groupes homogènes si pour tout l'échantillon et toute classe c on a:

??? ??

P i r s i s

( / )

? = = Ö ? ?

i s c c

P i j r s P i r s P j r s i j s

( & / ) ( / ) ( / )

? = = ? ? ? ? ?

ij s
/

L'objectif est donc la construction de groupes d'individus statistiques qui soient homogènes par rapport à la probabilité de répondre afin d'éliminer ou tout au moins de réduire le biais de la non-réponse. De façon pratique on désire construire des groupes de sorte qu'on puisse décrire autant que faire se peut le mécanisme de non-réponse.

Les classes des repondérations peuvent être créées à partir de différentes méthodes dont celle des "scores". Cette méthode consiste dans un premier temps à prédire les probabilités de répondre pour toutes les unités de l'échantillon à l'aide d'un modèle de régression approprié (logistique, probit, probabilité linéaire ou autre) tout en prenant le soin de bien choisir les facteurs explicatifs. La deuxième étape est celle d'ordonnancement des probabilités estimées en ordre croissant. La troisième consiste à l'utilisation d'analyse par

groupe pour regrouper les unités ayant des P_i similaires. Les classes étant constituées la

dernière étape s'agirait tout simplement de calculer à l'intérieur de chaque classe les poids ajustés pour la non-réponse; ainsi on aura procédé à la repondération à l'intérieur de chaque classe. L'efficacité de cette méthode a été démontrée en 2001 par D. Haziza et ses collaborateurs dans une étude menée au Canada. Cette méthode a l'avantage de rendre efficaces les estimateurs de grandeurs notamment la moyenne et le total. La repondération par la non-réponse totale peut être le moyen le plus simple de compenser la carence de certaines données d'enquête.

Pour tenir compte de la non accessibilité du sondage à certaines unités, soit parce qu'elles sont inadmissibles dans une base de sondage ou parce qu'elles sont non répondantes lors de l'enquête, on emploie des multiples formes d'ajustements (multiples méthodes de repondération). Considérons toujours notre population cible dont les unités sont regroupées en j classes homogènes. L'estimateur du total s'écrira de la façon suivante, après ajustement

y' i et y _{c i}désignent respectivement une unité de la classe c et une valeur liée à cette unité ci.

' s_ad et s_na désignent respectivement des répondants admissibles à l'échantillon et l'ensemble des unités connues comme non admissibles.

La repondération permet, avec l'utilisation judicieuse des données, de compenser l'effet de la non-réponse totale en formant des classes de repondération. Elle permet aussi d'avoir les valeurs estimées des agrégats comme le total et la moyenne. Cependant, elle devient plus compliquée à mettre en oeuvre dans les cas des non-réponses partielles. Car il faudra procéder à des repondérations qui seraient probablement différentes pour chaque variable concernée. Pour cette raison, on lui préfère d'autres méthodes plus appropriées comme celles dites d'imputation.

Parmi les méthodes les plus utilisées, on a celle dite du "plus proche voisin". C'est une méthode qui consiste à trouver pour l'individu qui n'a pas répondu un donneur potentiel qui puisse lui être semblable le plus statistiquement possible. Il s'agit de donner une valeur artificielle à l'individu n'ayant pas répondu à la question qui lui aurait été posée. Cette valeur artificielle proviendra d'une unité dont les caractéristiques sont plus proches de l'unité ayant

introduit le biais de données manquantes. Pour l'imputer on peut utiliser le formalisme suivant :

C'est-à-dire qu'on choisit l'individu donneur de telle sorte que la distance d(x _i ;x _j ) soit la plus petite possible, x étant la variable auxiliaire. Où *

y_i et y_j désignent respectivement la valeur imputée de la variable pour l'individu i et la valeur observée de la même variable pour l'individu donneur j. Et s_r désigne l'échantillon des répondants.

Il s'agit donc d'élaborer un critère quelconque, à partir des caractéristiques qu'on a déterminées, pour montrer et choisir lequel des individus répondants ressemble le plus à celui pour lequel on ne détient pas l'information. Le plus semblable des éléments tient lieu de donneur et est considéré de ce fait comme le voisin le plus proche.

On compte aussi parmi les méthodes d'imputation, l'imputation par moyenne et celle par ratio. Ces deux méthodes sont basées sur l'affectation d'une valeur aux observations incomplètes d'une variable. En ce qui concerne l'imputation par la moyenne, sa mise en oeuvre ne nécessite pas que l'on dispose des variables auxiliaires qui seraient pertinentes pour l'analyse de la variable d'intérêt. Car elle consiste à remplacer les données manquantes de la variable considérée par la moyenne des valeurs données par les répondants. De façon analytique lorsqu'un élément ne répond pas à la question qui lui est posée, c'est à dire ne donne pas de valeur à la variable d'étude, on applique la formule de la moyenne pour lui imputer une valeur.

Cette valeur moyenne pour l'ensemble de réponses obtenues est utilisée pour remplacer chacune de variables manquantes.

La méthode par ratio utilise à la fois la moyenne de la variable d'intérêt pour les répondant et les variables auxiliaires. Elle consiste à imputer une même valeur pour toutes les unités non répondantes. C'est-à-dire pour une variable donnée toute les observations manquantes auront un remplaçant commun pour compenser la perte de donnée. Le formalisme peut se présenter comme suit:

Où y_r , xr et x _i désignent respectivement la moyenne de la variable d'intérêt, de la variable auxiliaire pertinente pour l'étude et la valeur de cette variable pour l'individu i Imputation multiple

Jusqu'ici nous avons seulement, pour la correction de non-réponse partielle, explicité le cas d'imputation unique. C'est-à-dire pour chaque valeur manquante imputer une seule valeur. Une autre technique est de procéder à un type d'imputation appelé imputation multiple. La technique d'imputation multiple a été principalement développée par Rubin. Elle remplace chaque variable manquante par au moins deux valeurs tirées d'une distribution pour les valeurs manquantes sous l'hypothèse que l'on postule à propos de la non-réponse. On obtient donc comme résultat de l'imputation au moins deux bases. Chacune des bases étant analysée

selon une même méthode, on combine les analyses afin de refléter la variabilité supplémentaire que peuvent entraîner les données manquantes.

Du point de vue théorique on peut assimiler cette méthode d'imputation multiple à une approche bayesienne. Lorsque le nombre d'imputations est élevé, les estimateurs seront plus précis. Pour qu'une procédure d'imputation multiple soit appropriée, il faut qu'elle incorpore la variabilité adéquate parmi les v ensembles d'imputations.

La procédure "Approximate Bayesian Boostrap" (ABB) est une des procédures appropriées. Elle peut être décrite comme suit:

Soit un groupe de n unités de même valeur X₁ , X₂,..., Xk - 1 où l'on trouve pour la valeur Xk, n_sr répondants. Avec n et n_sr qui désignent respectivement la taille de la

population cible et celle de l'échantillon de répondants. Les non répondants sont naturellement de:

On tire dans l'ensemble de répondants les n valeurs possibles de X_k avec remise et de

façon aléatoire, et cela pour chacun des v ensembles d'imputations. Après ce tirage on impute les valeurs manquantes en procédant à un tirage aléatoire avec remise de l'ensemble des n

possibles plutôt que dans l'échantillon de répondants. Ce tirage de nsr génère entre les
imputations une variabilité appropriée. La supposition d'un groupe de n unités ayant les

mêmes valeurs X ₁ ,X2,..., X_k_-1 permet de classer les répondants, comme les non répondants

dans un même ensemble homogène comme nous l'avons explicité dans la méthode de repondération.

Le principe est d'attribuer à une donnée manquante une valeur observée chez un répondant. Il s'agirait donc de trouver pour un receveur les potentiels donneurs parmi les répondants. Une façon plus pratique est de faire des classes homogènes comme nous l'avons explicité plus haut. On donnera à un non répondant la valeur d'un répondant appartenant au même groupe.

La procédure ABB est une méthode de type hot-deck à qui on incorpore les techniques de Boostrap. Car le hot-deck consiste aussi à imputer une valeur à l'observation qui fait défaut selon une technique que l'on cherche à mettre en oeuvre.

Bien que l'imputation améliore la qualité de données finales par le fait qu'elle permet de compenser les réponses manquantes, invalides ou incohérentes, il convient de veiller à choisir la méthode d'imputation appropriée. En effet, il existe une multitude de techniques d'imputation dont chacune aboutit à une estimation particulière de la variance et à une formule différente de celle des autres. De plus, certaines de ces méthodes ne sont pas sans effet sur les liens qui existent entre les variables. C'est-à-dire qu'il existerait des méthodes d'imputation qui ne préserveraient pas les relations entre les variables de l'étude ou, pourraient fausser les distributions sous-jacentes.

De façon générale on peut classer les méthodes d'imputation parmi les groupes suivants :

V' Les méthodes déductives : elles utilisent les informations des autres questions pour avoir des données déduites susceptibles de remplacer les données manquantes;

V' Les méthodes "cold-deck" : on utilise des informations d'une autre enquête pour compenser les non répondants

V' Les méthodes hot-deck: dans ces cas on donne la valeur d'un individu répondant (le donneur) à la valeur manquante selon une procédure qu'on se fixe. C'est donc une méthode qui recourt à d'autres enregistrements pour répondre à la question qui doit faire l'objet d'une imputation. Il existe une multitude de procédures connues que l'on peut mettre en pratique. On a parmi ces procédures le hot-deck aléatoire, le hot-deck séquentiel hiérarchisé et le hot-deck métrique.

V' Il y a aussi des méthodes dites de prévision, elles consistent à procéder à une régression adéquate. Les résultats du modèle de régression sont ensuite utilisés pour faire une prévision.

Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

4. Traitement de la non-réponse