WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Economie et Finance

Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

( Télécharger le fichier original )
par Lassana DOUCOURE
ENSEA Abidjan - Ingénieur Statistiques 2005

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Annexes

Annexe1 : Etat de non-réponse et constitution de

l'échantillon.

Tableau 8: Etat de non-réponses selon le statut des entreprises

	Disponibilité de DSF		Total
	DSF existe	DSF n'existe pas	Total
Statut des entreprises Privée Effectif	220	151	371
Taux ^deréponse	59,3%	40,7%	100,0%
Publique Effectif	12	6	18
Taux ^deréponse	66,7%	33,3%	100,0%
Total Effectif	232	157	389
Taux de
réponse	59,6%	40,4%	100,0%

Source : INSD, nos calculs

Graphique 2: Répartition de l'échantillon selon la résidence des entreprises

BAN FO RA

BOBO

KDG

Ouaga

Source; INSD, nos estimations.

Tableau 9: Répartition des entreprises selon leur vocation

Fréquence

Pourcentage

Valide Entreprise

Pharmaceutique

Entreprise de Service

ou Commerce

Industrie

Transport ou Transit Total

233

46 16 389

24,2
59,9

11,8
4,1
100,0

Source : INSD, nos calculs.

Annexe 2 : Test de classification de donnée et

d'autocorélation

Tableau 10: Table de prédiction du modèle¹

Logistic model for VDSF
True

Classified \|		D	~D	\|	Total
+				+
+	\|	221	148	\|	369
-	\|	11	9	\|	20
	+			+

Total | 232 157 | 389

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF ~= 0

Sensitivity Pr( +| D) 95,26%

Specificity Pr( -|~D) 5,73%

Positive predictive value Pr( D| +) 59,89%
Negative predictive value Pr(~D| -) 4 5,00%

False + rate for true ~D Pr( +|~D) 94,27%

False - rate for true D Pr( -| D) 4,74%
False + rate for classified + Pr(~D| +) 40,11%
False - rate for classified - Pr( D| -) 5 5,00%

Correctly classified 59,13%

Source: INSD, nos calculs et estimations

1 Dans ce tableau, D désigne que VDSF=1, le signe "+" désigne VDSF estimé =1 tandis que VDSF estimé=0 est désigné par le signe " -".

Annexe 3 : test d'adéquation du modèle

Tableau 11: Test de Hosmer-Lemeshow de bon calibrage du modèle

	Quantile of Risk		VDSF=0		VDSF=1		Total	H-L
Groupes	Low	High	Observé	Prédit	Observé	Prédit		Value
1	0,4346	0,5097	18	19,5415	20	18,4585	38	0,25034
2	0,5097	0,5097	20	19,1229	19	19,8771	39	0,07894
3	0,5097	0,5876	17	17,5671	22	21,4329	39	0,03332
4	0,5876	0,6037	18	15,5374	21	23,4626	39	0,64879
5	0,6037	0,6296	18	14,9998	21	24,0002	39	0,97515
6	0,6296	0,6376	12	14,2323	27	24,7677	39	0,55131
7	0,6376	0,6376	13	14,1352	26	24,8648	39	0,14299
8	0,6376	0,6376	14	14,1352	25	24,8648	39	0,00203
9	0,6376	0,6376	11	14,1352	28	24,8648	39	1,0907
10	0,6376	0,6817	16	13,5935	23	25,4065	39	0,65396
		Total	157	157	232	232	389	4,42751
H-L Statistic: 4,4275 Prob. Chi-2(8) 0,8166
Andrews Statistic: 5,835 Prob. Chi-2(10) 0,8289

Source : INSD, nos calculs et estimations

Annexe 4 : caractéristique de groupes de réponse

construits

Tableau 12: Quintiles de probabilité de réponse

N° de Groupe	Probabilités	Nombre de non répondantes	Nombre de répondantes	Observations totales
1	0,5097	40	37	77
2	0,6037	35	43	78
3	0,6376	29	49	78
4	0,6376	24	54	78
5	0,6817	29	49	78
	Total	157	232	389

Source : INSD, nos estimations

Annexe5 : Résultats de l'estimation pour l'année 2000

Tableau 13: Résultat de l'estimation de probabilité de réponse de l'année 2000.

VDSF	Coefficient	Ecart type	Statistique	P-value	Intervalle de confiance
					Borne Inférieure	Borne supérieure
VIOU	0,2187589	0,6951519	0,31	0,753	-1,143714	1,581232
VIBO	0,2370171	0,7279133	0,33	0,745	-1,189667	1,663701
VIKD	-0,3519532	1,14967	-2,31	0,045	-1,605264	-0,201358
VIPH	0,1486894	0,5138915	2,49	0,002	0,0585195	2,515898
VISC	-0,2257785	0,4039783	-2,06	0,017	-2,17561	-0,166004
VIIN	-0,4914565	0,5594179	-0,88	0,38	-1,587895	0,6049824
Pub	0,34226	0,3983209	2,14	0,039	0,4384345	2,152955
Constante	0,025991	0,7719421	0,03	0,973	-1,486988	1,53897
R² count						= 53,10%

Source : INSD, nos estimations

Tableau 14: Table de prédiction du modèle pour la base de 2000.

True

Classified | D ~D | Total

+ +

+ | 162 145 | 307

- | 14 18 | 32

+ +

Total | 176 163 | 339

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF~= 0

Sensitivity Pr( +| D) 92,05%

Specificity Pr( - |~D) 11,04%

Positive predictive value Pr( D| +) 52,77,%

Negative predictive value Pr(~D| -) 5 6,25%

False + rate for true ~D Pr( +|~D) 88,96%

False - rate for true D Pr( -| D) 7,95%

False + rate for classified + Pr(~D| +) 47,23%
False - rate for classified - Pr( D| -) 43,75%

Correctly classified 53,10%

Source: INSD, nos estimations

Tableau 15: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 2000.

	Quantile of Risk		VDSF=0		VDSF=1		Total	H-L
Groupes	Low	High	Observé	Prédit	Observé	Prédit		Value
1	0,3655	0,5047	19	18,7421	14	14,2579	33	0,00821
2	0,5047	0,5047	17	16,8387	17	17,1613	34	0,00306
3	0,5047	0,5047	14	16,8387	20	17,1613	34	0,94814
4	0,5047	0,5047	20	16,8387	14	17,1613	34	1,17581
5	0,5047	0,5047	19	16,8387	15	17,1613	34	0,54958
6	0,5047	0,5047	19	16,8387	15	17,1613	34	0,54958
7	0,5047	0,5093	14	16,7229	20	17,2771	34	0,87249
8	0,5093	0,5609	12	15,803	22	18,197	34	1,70995
9	0,5609	0,5971	15	14,0705	19	19,9295	34	0,10475
10	0,5971	0,6427	14	13,4677	20	20,5323	34	0,03483
		Total	163	163	176	176	339	5,95641
H-L Statistic: 5,9564 Prob. Chi-2(8) 0,6521
Andrews Statistic: 8,5668 Prob. Chi-2 (10) 0,5737

Source : INSD, nos estimations

La p-value associée à ce test de Hosmer-Lemeshow est supérieure au seuil théorique que nous nous sommes fixés. On peut donne conclure à un bon reflet de la réalité par le modèle. C'est-à-dire que le modèle est bien calibré. On donne ci-dessous les groupes de réponse homogène.

Tableau 16: Caractéristique de groupes (probabilité estimée) de réponse de 2000.

N° de groupes	Probabilité estimée	Nombre de non répondante	Nombre de répondantes	Observations totales
1	0,5047	111	100	211
2	0,5093	17	24	41
3	0,5609	7	14	21
4	0,5971	21	30	51
5	0,6427	7	8	15

	Total	163	176	339

Source : INSD, nos estimations

Ces classes (groupes) ont servi dans les estimations des grandeurs de comptabilité nationale pour l'année 2000. Comme se fut le cas pour l'année 2001 dans le dernier chapitre du document.

Tableau 17: Odds Ratio des variables explicatives de l'année 2000.

Variables explicatives	VIOU	VIBO	VIKD	VIPH	VISC	VIIN	Pub
Odds Ratio	1,244531	1,267463	0,7033131	1,160313	0,7978948	0,6117348	1,408126

Source : INSD, nos estimations

Annexe 6 : Résultats de l'estimation pour l'année

1999.

Tableau 18: Résultat de l'estimation de probabilité de réponse de l'année 1999

VDSF	Coefficient	Ecart type	statistiques	P-value	Intervalle de confiance
					Borne inférieure	Borne Supérieure
VIOU	0,9516174	0,840293	1,13	0,257	-0,6953265	2,598561
VIBO	0,7322836	0,87846	2,83	0,005	0,9894663	3,454034
VIKD	-0,5342036	1,21781	-2,44	0,041	-2,921068	-0,052661
VIPH	-3,105719	1,107519	-2,8	0,005	-5,276417	-0,9350208
VISC	-1,712079	1,058649	-1,62	0,106	-3,786993	0,3628352
VITT	-0,2071229	1,482653	-0,14	0,889	-3,113069	2,698824
Pub	0,6049261	0,4838371	1,25	0,211	-0,3433772	1,553229
Constante	1,712079	1,336939	2,28	0,02	0,9082724	4,33243
R² count =						73,25%

Source : INSD, nos estimations

Tableau 19; Table de prédiction du modèle de la base 1999

True

Classified | D ~D | Total

+ +

+ | 156 53 | 209

- | 12 22 | 34

+ ---+

Total | 168 75 | 243

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF ~= 0

Sensitivity Pr( +| D) 92,8 6%

Specificity Pr( -|~D) 29,33%

Positive predictive value Pr( D| +) 74, 64%

Negative predictive value Pr(~D| -) 64,71%

False + rate for true ~D Pr( +|~D) 70,67%

False - rate for true D Pr( -| D) 7,14%

False + rate for classified + Pr(~D| +) 25,3 6%
False - rate for classified - Pr( D| -) 35,29%

Correctly classified 73,25%

Source : INSD, nos estimations

Tableau 20: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 1999.

N° Groupes	Quantile of Risk		VDSF=0		VDSF=1		Total	H-L
	Low	High	Observé	Prédit	Observé	Prédit		Value
1	0,3404	0,3913	16	14,9799	8	9,02011	24	0,18484
2	0,3913	0,6753	11	12,1749	13	11,8251	24	0,23012
3	0,6753	0,6753	7	7,79265	17	16,2073	24	0,11939
4	0,6753	0,7214	6	7,2408	19	17,7592	25	0,29932
5	0,7214	0,7214	9	6,68543	15	17,3146	24	1,11073
6	0,7214	0,7214	7	6,68543	17	17,3146	24	0,02052
7	0,7214	0,7214	9	6,96399	16	18,036	25	0,82509
8	0,7214	0,792	2	6,54425	22	17,4557	24	4,33848
9	0,792	0,9035	6	4,17304	18	19,827	24	0,96819
10	0,9035	0,9633	2	1,75959	23	23,2404	25	0,03533
		Total	75	75	168	168	243	8,13201
H-L Statistic:		8,132				Prob, Chi-2(8) 0,4207
Andrews Statistic:		17,5701				Prob, Chi-2(10) 0,0627

Source: INSD, nos estimations

Tableau 21: Caractéristique de groupes (probabilité estimée) de réponse de 1999.

N° Groupes	Probabilité	Nombre de non répondantes	Nombre de répondantes	Observations totales
1	0,3913	22	11	33
2	0,6753	15	30	45
3	0,7214	30	84	114
4	0,7920	1	4	5
5	0,9035	6	17	23
6	0,9633	1	22	23
	Total	75	168	243

Source: INSD, nos estimations

Tableau 22: Odds Ratio des variables explicative de l'année 1999.

Variables explicatives	VIOU	VIBO	VIKD	VIPH	VISC	VITT	Pub
Odds Ratio	2,589895	2,079825	0,5861359	0,0447923	0,1804902	0,8129197	1,831117

Source: INSD, nos estimations

Annexe 7: Résultats de test de Marasculo¹

$$ Comparaison des proportions de "type" pour la modalité "DSF existe" de disponibilité DSF

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~

Différence abs Valeur Seuil critique			Signif( 0,05)?	P_val
P entre - P entre =	0,431	0,115	Diff	0,000
P entre - P indus =	0,082	0,095	Egales	0,12 10
P entre - P trans =	0,159	0,083	Diff	0,000
P entre - P indus =	0,513	0,107	Diff	0,000
P entre - P trans =	0,591	0,096	Diff	0,000
P indus - P trans =	0,078	0,070	Diff	0,024
1 sur	6 Proportions sont égales

$$ Comparaison des proportions de "type" pour la modalité "DSF n'existe" de disponibilité DSF

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Difference abs Valeur		Seuil critique	Signif(.05)?	P_val
P entre - P entre =	0,248	0,151	Diff	0,000
P entre - P indus =	0,185	0,124	Diff	0,001
P entre - P trans =	0,261	0,111	Diff	0,000
P entre - P indus =	0,433	0,132	Diff	0,000
P entre - P trans =	0,5 10	0,119	Diff	0,000
P indus - P trans =	0,076	0,083	Egales	0,085

1 sur 6 Proportions sont égales

1 La commande utilisée a été développée sous un logiciel de la place par Chitou Bassirou Ph. D enseignant à permanent l'ENSEA

Bibliographie

REFERENCES BIBLIOGRAPHIQUES

Gujarati Damodar N. (2004) - Econométrie, 4^e édition américaine: Traduction Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.

Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse.

Hurlin C. (2003) - Econométrie des variables qualitatives: modèles à variables endogènes qualitatives, Université d'Orléans, Orléans, France.

INSD (Burkina Faso) - (2003) - Note méthodologique sur l'élaboration des comptes à l'aide du module ERETES, Document de travail, Ouagadougou.

Jacqemin-Gadda H. (2003) - Analyse de données longitudinales avec des données manquantes, INSERMU, Bordeaux, France. Document disponible en ligne www.bordeaux.inserm.fr

Luminet D. (2003) - L'enquête sur les Forces de travail: calibrage et autres développements, Institut National de la Statistique éditeur, Louvain.

Valliant R. (2003) - Application de nouvelles techniques statistiques, Statistique Canada, Ottawa, Document disponible en ligne www.statcan.ca

Bernier J et al. (2002) - traitement des données manquantes: une étude de cas, Société statistique du Canada, Ottawa.

Bialès M. et al. (2002) - Notions fondamentales de l'économie, Col. Notions fondamentales, Foucher, Paris.

La revue Prescrire (2002) - tenir comptes de données manquantes dans les essais cliniques, Tome 2 N° 225, inconnu.

AFRISTAT (Rép. MALI) - (2001) - Guide méthodologique pour l'élaboration des comptes nationaux dans les Etats membres d'AFRISTAT, Document de travail, Bamako.

Tood R. W. (2001) - Flexible matching imputation: combining hot-deck imputation with model-based methodology, American Statistical Association, U. S bureau of census, Washington.

BRION P. et CLAIRIN R. (1997) - Manuel de sondages : Applications aux pays en développement, INSEE et CPED, Paris.

Séruzier M. (1996) - Construire les comptes de la nation selon le SCN 1993, Col. Economie et statistiques avancées, ECONOMICA, Paris.

ONU et al. (1995) - Système de Comptabilité Nationale 1993 (SCN 1993), Manuel préparé par un groupe de travail intersecrétariat sur la comptabilité nationale, Washington.

Heckly C. (1990) - Eléments d'économie pratique, Harmattan, Paris.

Gourieroux C. (1989) - Econométrie des variables qualitatives, Col. Economie et Statistiques avancées, ECONOMICA, Paris.

Rubin D.B. (1987) - Multiple imputation for nonresponse in surveys, Wiley, New-

York.

TABLE DES MATIÈRES

Dédicace et remerciements 2

Sigles et abréviations 3

Sommaire. 4

Liste des tableaux 5

Liste des graphique. 5

Avant-propos 6

Présentation de la structure 7

Introduction 9

Chapitre 0. Concepts et définitions 10

I. Comptabilité nationale 10

1. Définition 10

2. Objet 10

3. Les comptes 11

II. Secteur moderne DSF et secteur moderne non DSF 11

III. Les sources de données 12

Chapitre 1. Généralités et problématique de l'étude 14

I. Contexte et problématique de l'étude 14

II. Cadre théorique 14

1. Non-réponse totale 15

2. Non-réponse partielle 16

3. Les mécanismes de génération des données manquantes 16

4. Traitement de la non-réponse. 17

4.1. Méthode de repondération 18

Mise en application 18

4.2. Méthode d'imputation. 20

a. Généralité sur l'imputation 20

b. Technique d'imputation 20

Chapitre 2. Méthodologie d'estimation des déclarations manquantes 24

I. Méthode utilisée par l 'INSD 25

II. Critique de la méthode présentée 26

III. Proposition de méthode 27

1. Analyse exploratoire. 27

2. Proposition de méthode de repondération 30

a. Justification 30

b. Spécification de la méthode 31

b.1 Estimations des probabilités de réponses 31

b.2 Diagnostics du modèle 34

b.3 Odds ratio 36

b.4 Groupes de réponses 38

Chapitre 3. : Estimation des DSF des entreprises du secteur moderne. 39

I. Estimation de la production et de la CI 39

1. Estimation de la production 39

2. Estimation de la consommation intermédiaire 40

II. Estimation de la rémunération des salariés et de l'impôt sur production 40

1. Estimation de la RS 41

2. Estimation de l'impôt sur production 41

Recommandations 42

Conclusion. 43

Annexes 44

Annexe1 : Etat de non-réponse et constitution de l'échantillon. 45

Annexe 2 : Test de classification de donnée et d'autocorélation 47

Annexe 3 : test d'adéquation du modèle 48

Annexe 4 : caractéristique de groupes de réponse construits 49

Annexe5 : Résultats de l'estimation pour l'année 2000 50

Annexe 6 : Résultats de l'estimation pour l'année 1999 52

Annexe 7: Résultats de test de Marasculo 54

Références bibliographiques 55

Table des matières 56

précédent sommaire

Changeons ce systeme injuste, Soyez votre propre syndic

"Il faut répondre au mal par la rectitude, au bien par le bien." Confucius