WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Le traitement des données manquantes pour l'établissement des comptes économiques du Burkina Faso

( Télécharger le fichier original )
par Lassana DOUCOURE
ENSEA Abidjan - Ingénieur Statistiques 2005
  

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Annexes

Annexe1 : Etat de non-réponse et constitution de

l'échantillon.

Tableau 8: Etat de non-réponses selon le statut des entreprises

 

Disponibilité de DSF

Total

DSF existe

DSF n'existe
pas

Statut des entreprises Privée Effectif

220

151

371

Taux de
réponse

59,3%

40,7%

100,0%

Publique Effectif

12

6

18

Taux de
réponse

66,7%

33,3%

100,0%

Total Effectif

232

157

389

Taux de

 
 
 

réponse

59,6%

40,4%

100,0%

Source : INSD, nos calculs

Graphique 2: Répartition de l'échantillon selon la résidence des entreprises

BAN FO RA

BOBO

KDG

Ouaga

Source; INSD, nos estimations.

Tableau 9: Répartition des entreprises selon leur vocation

 

Fréquence

Pourcentage

Valide Entreprise

Pharmaceutique

Entreprise de Service

ou Commerce

Industrie

Transport ou Transit Total

94

233

46 16 389

24,2
59,9

11,8
4,1
100,0

Source : INSD, nos calculs.

Annexe 2 : Test de classification de donnée et

d'autocorélation

Tableau 10: Table de prédiction du modèle1

Logistic model for VDSF
True

Classified |

D

~D

|

Total

+

 
 
 

+

 

+

|

221

148

|

369

-

|

11

9

|

20

 

+

 
 

+

 

Total | 232 157 | 389

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF ~= 0

Sensitivity Pr( +| D) 95,26%

Specificity Pr( -|~D) 5,73%

Positive predictive value Pr( D| +) 59,89%
Negative predictive value Pr(~D| -) 4 5,00%

False + rate for true ~D Pr( +|~D) 94,27%

False - rate for true D Pr( -| D) 4,74%
False + rate for classified + Pr(~D| +) 40,11%
False - rate for classified - Pr( D| -) 5 5,00%

Correctly classified 59,13%

Source: INSD, nos calculs et estimations

1 Dans ce tableau, D désigne que VDSF=1, le signe "+" désigne VDSF estimé =1 tandis que VDSF estimé=0 est désigné par le signe " -".

Annexe 3 : test d'adéquation du modèle

Tableau 11: Test de Hosmer-Lemeshow de bon calibrage du modèle

 

Quantile of Risk

VDSF=0

VDSF=1

Total

H-L

Groupes

Low

High

Observé

Prédit

Observé

Prédit

 

Value

1

0,4346

0,5097

18

19,5415

20

18,4585

38

0,25034

2

0,5097

0,5097

20

19,1229

19

19,8771

39

0,07894

3

0,5097

0,5876

17

17,5671

22

21,4329

39

0,03332

4

0,5876

0,6037

18

15,5374

21

23,4626

39

0,64879

5

0,6037

0,6296

18

14,9998

21

24,0002

39

0,97515

6

0,6296

0,6376

12

14,2323

27

24,7677

39

0,55131

7

0,6376

0,6376

13

14,1352

26

24,8648

39

0,14299

8

0,6376

0,6376

14

14,1352

25

24,8648

39

0,00203

9

0,6376

0,6376

11

14,1352

28

24,8648

39

1,0907

10

0,6376

0,6817

16

13,5935

23

25,4065

39

0,65396

 
 

Total

157

157

232

232

389

4,42751

H-L Statistic: 4,4275 Prob. Chi-2(8) 0,8166

Andrews Statistic: 5,835 Prob. Chi-2(10) 0,8289

Source : INSD, nos calculs et estimations

Annexe 4 : caractéristique de groupes de réponse

construits

Tableau 12: Quintiles de probabilité de réponse

N° de Groupe

Probabilités

Nombre de non répondantes

Nombre de répondantes

Observations totales

1

0,5097

40

37

77

2

0,6037

35

43

78

3

0,6376

29

49

78

4

0,6376

24

54

78

5

0,6817

29

49

78

 

Total

157

232

389

Source : INSD, nos estimations

Annexe5 : Résultats de l'estimation pour l'année 2000

Tableau 13: Résultat de l'estimation de probabilité de réponse de l'année 2000.

VDSF

Coefficient

Ecart type

Statistique

P-value

Intervalle de confiance

 
 
 
 
 

Borne Inférieure

Borne supérieure

VIOU

0,2187589

0,6951519

0,31

0,753

-1,143714

1,581232

VIBO

0,2370171

0,7279133

0,33

0,745

-1,189667

1,663701

VIKD

-0,3519532

1,14967

-2,31

0,045

-1,605264

-0,201358

VIPH

0,1486894

0,5138915

2,49

0,002

0,0585195

2,515898

VISC

-0,2257785

0,4039783

-2,06

0,017

-2,17561

-0,166004

VIIN

-0,4914565

0,5594179

-0,88

0,38

-1,587895

0,6049824

Pub

0,34226

0,3983209

2,14

0,039

0,4384345

2,152955

Constante

0,025991

0,7719421

0,03

0,973

-1,486988

1,53897

R2 count

= 53,10%

Source : INSD, nos estimations

Tableau 14: Table de prédiction du modèle pour la base de 2000.

True

Classified | D ~D | Total

+ +

+ | 162 145 | 307

- | 14 18 | 32

+ +

Total | 176 163 | 339

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF~= 0

Sensitivity Pr( +| D) 92,05%

Specificity Pr( - |~D) 11,04%

Positive predictive value Pr( D| +) 52,77,%

Negative predictive value Pr(~D| -) 5 6,25%

False + rate for true ~D Pr( +|~D) 88,96%

False - rate for true D Pr( -| D) 7,95%

False + rate for classified + Pr(~D| +) 47,23%
False - rate for classified - Pr( D| -) 43,75%

Correctly classified 53,10%

Source: INSD, nos estimations

Tableau 15: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 2000.

 

Quantile of Risk

VDSF=0

VDSF=1

Total

H-L

Groupes

Low

High

Observé

Prédit

Observé

Prédit

 

Value

1

0,3655

0,5047

19

18,7421

14

14,2579

33

0,00821

2

0,5047

0,5047

17

16,8387

17

17,1613

34

0,00306

3

0,5047

0,5047

14

16,8387

20

17,1613

34

0,94814

4

0,5047

0,5047

20

16,8387

14

17,1613

34

1,17581

5

0,5047

0,5047

19

16,8387

15

17,1613

34

0,54958

6

0,5047

0,5047

19

16,8387

15

17,1613

34

0,54958

7

0,5047

0,5093

14

16,7229

20

17,2771

34

0,87249

8

0,5093

0,5609

12

15,803

22

18,197

34

1,70995

9

0,5609

0,5971

15

14,0705

19

19,9295

34

0,10475

10

0,5971

0,6427

14

13,4677

20

20,5323

34

0,03483

 
 

Total

163

163

176

176

339

5,95641

H-L Statistic: 5,9564 Prob. Chi-2(8) 0,6521

Andrews Statistic: 8,5668 Prob. Chi-2 (10) 0,5737

Source : INSD, nos estimations

La p-value associée à ce test de Hosmer-Lemeshow est supérieure au seuil théorique que nous nous sommes fixés. On peut donne conclure à un bon reflet de la réalité par le modèle. C'est-à-dire que le modèle est bien calibré. On donne ci-dessous les groupes de réponse homogène.

Tableau 16: Caractéristique de groupes (probabilité estimée) de réponse de 2000.

N° de groupes

Probabilité estimée

Nombre de non répondante

Nombre de répondantes

Observations totales

1

0,5047

111

100

211

2

0,5093

17

24

41

3

0,5609

7

14

21

4

0,5971

21

30

51

5

0,6427

7

8

15

 
 
 
 
 
 

Total

163

176

339

Source : INSD, nos estimations

Ces classes (groupes) ont servi dans les estimations des grandeurs de comptabilité nationale pour l'année 2000. Comme se fut le cas pour l'année 2001 dans le dernier chapitre du document.

Tableau 17: Odds Ratio des variables explicatives de l'année 2000.

Variables explicatives

VIOU

VIBO

VIKD

VIPH

VISC

VIIN

Pub

Odds Ratio

1,244531

1,267463

0,7033131

1,160313

0,7978948

0,6117348

1,408126

Source : INSD, nos estimations

Annexe 6 : Résultats de l'estimation pour l'année

1999.

Tableau 18: Résultat de l'estimation de probabilité de réponse de l'année 1999

VDSF

Coefficient

Ecart type

statistiques

P-value

Intervalle de confiance

 
 
 
 
 

Borne inférieure

Borne Supérieure

VIOU

0,9516174

0,840293

1,13

0,257

-0,6953265

2,598561

VIBO

0,7322836

0,87846

2,83

0,005

0,9894663

3,454034

VIKD

-0,5342036

1,21781

-2,44

0,041

-2,921068

-0,052661

VIPH

-3,105719

1,107519

-2,8

0,005

-5,276417

-0,9350208

VISC

-1,712079

1,058649

-1,62

0,106

-3,786993

0,3628352

VITT

-0,2071229

1,482653

-0,14

0,889

-3,113069

2,698824

Pub

0,6049261

0,4838371

1,25

0,211

-0,3433772

1,553229

Constante

1,712079

1,336939

2,28

0,02

0,9082724

4,33243

R2 count =

73,25%

Source : INSD, nos estimations

Tableau 19; Table de prédiction du modèle de la base 1999

True

Classified | D ~D | Total

+ +

+ | 156 53 | 209

- | 12 22 | 34

+ ---+

Total | 168 75 | 243

Classified + if predicted Pr(D) >=0,5
True D defined as VDSF ~= 0

Sensitivity Pr( +| D) 92,8 6%

Specificity Pr( -|~D) 29,33%

Positive predictive value Pr( D| +) 74, 64%

Negative predictive value Pr(~D| -) 64,71%

False + rate for true ~D Pr( +|~D) 70,67%

False - rate for true D Pr( -| D) 7,14%

False + rate for classified + Pr(~D| +) 25,3 6%
False - rate for classified - Pr( D| -) 35,29%

Correctly classified 73,25%

Source : INSD, nos estimations

Tableau 20: Test de Hosmer-Lemeshow de bon calibrage du modèle pour l'année 1999.

N° Groupes

Quantile of Risk

VDSF=0

VDSF=1

Total

H-L

 

Low

High

Observé

Prédit

Observé

Prédit

 

Value

1

0,3404

0,3913

16

14,9799

8

9,02011

24

0,18484

2

0,3913

0,6753

11

12,1749

13

11,8251

24

0,23012

3

0,6753

0,6753

7

7,79265

17

16,2073

24

0,11939

4

0,6753

0,7214

6

7,2408

19

17,7592

25

0,29932

5

0,7214

0,7214

9

6,68543

15

17,3146

24

1,11073

6

0,7214

0,7214

7

6,68543

17

17,3146

24

0,02052

7

0,7214

0,7214

9

6,96399

16

18,036

25

0,82509

8

0,7214

0,792

2

6,54425

22

17,4557

24

4,33848

9

0,792

0,9035

6

4,17304

18

19,827

24

0,96819

10

0,9035

0,9633

2

1,75959

23

23,2404

25

0,03533

 
 

Total

75

75

168

168

243

8,13201

H-L Statistic:

8,132

Prob, Chi-2(8) 0,4207

Andrews Statistic:

17,5701

Prob, Chi-2(10) 0,0627

Source: INSD, nos estimations

Tableau 21: Caractéristique de groupes (probabilité estimée) de réponse de 1999.

N° Groupes

Probabilité

Nombre de non répondantes

Nombre de répondantes

Observations totales

1

0,3913

22

11

33

2

0,6753

15

30

45

3

0,7214

30

84

114

4

0,7920

1

4

5

5

0,9035

6

17

23

6

0,9633

1

22

23

 

Total

75

168

243

Source: INSD, nos estimations

Tableau 22: Odds Ratio des variables explicative de l'année 1999.

Variables explicatives

VIOU

VIBO

VIKD

VIPH

VISC

VITT

Pub

Odds Ratio

2,589895

2,079825

0,5861359

0,0447923

0,1804902

0,8129197

1,831117

Source: INSD, nos estimations

Annexe 7: Résultats de test de Marasculo1

$$ Comparaison des proportions de "type" pour la modalité "DSF existe" de disponibilité DSF

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~

Différence abs Valeur Seuil critique

Signif( 0,05)?

P_val

P entre - P entre =

0,431

0,115

Diff

0,000

P entre - P indus =

0,082

0,095

Egales

0,12 10

P entre - P trans =

0,159

0,083

Diff

0,000

P entre - P indus =

0,513

0,107

Diff

0,000

P entre - P trans =

0,591

0,096

Diff

0,000

P indus - P trans =

0,078

0,070

Diff

0,024

1 sur

6 Proportions sont égales

 

$$ Comparaison des proportions de "type" pour la modalité "DSF n'existe" de disponibilité DSF

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Difference abs Valeur

Seuil critique

Signif(.05)?

P_val

P entre - P entre =

0,248

0,151

Diff

0,000

P entre - P indus =

0,185

0,124

Diff

0,001

P entre - P trans =

0,261

0,111

Diff

0,000

P entre - P indus =

0,433

0,132

Diff

0,000

P entre - P trans =

0,5 10

0,119

Diff

0,000

P indus - P trans =

0,076

0,083

Egales

0,085

1 sur 6 Proportions sont égales

1 La commande utilisée a été développée sous un logiciel de la place par Chitou Bassirou Ph. D enseignant à permanent l'ENSEA

Bibliographie

REFERENCES BIBLIOGRAPHIQUES

Gujarati Damodar N. (2004) - Econométrie, 4e édition américaine: Traduction Par Bernier B., Col. Ouvertures Economiques, De Boeck, Bruxelles.

Donzé L. (2003) - Théorie et pratique des enquêtes : analyse de données d'une enquête complexe, Université de Fribourg, Fribourg, Suisse.

Hurlin C. (2003) - Econométrie des variables qualitatives: modèles à variables endogènes qualitatives, Université d'Orléans, Orléans, France.

INSD (Burkina Faso) - (2003) - Note méthodologique sur l'élaboration des comptes à l'aide du module ERETES, Document de travail, Ouagadougou.

Jacqemin-Gadda H. (2003) - Analyse de données longitudinales avec des données manquantes, INSERMU, Bordeaux, France. Document disponible en ligne www.bordeaux.inserm.fr

Luminet D. (2003) - L'enquête sur les Forces de travail: calibrage et autres développements, Institut National de la Statistique éditeur, Louvain.

Valliant R. (2003) - Application de nouvelles techniques statistiques, Statistique Canada, Ottawa, Document disponible en ligne www.statcan.ca

Bernier J et al. (2002) - traitement des données manquantes: une étude de cas, Société statistique du Canada, Ottawa.

Bialès M. et al. (2002) - Notions fondamentales de l'économie, Col. Notions fondamentales, Foucher, Paris.

La revue Prescrire (2002) - tenir comptes de données manquantes dans les essais cliniques, Tome 2 N° 225, inconnu.

AFRISTAT (Rép. MALI) - (2001) - Guide méthodologique pour l'élaboration des comptes nationaux dans les Etats membres d'AFRISTAT, Document de travail, Bamako.

Tood R. W. (2001) - Flexible matching imputation: combining hot-deck imputation with model-based methodology, American Statistical Association, U. S bureau of census, Washington.

BRION P. et CLAIRIN R. (1997) - Manuel de sondages : Applications aux pays en développement, INSEE et CPED, Paris.

Séruzier M. (1996) - Construire les comptes de la nation selon le SCN 1993, Col. Economie et statistiques avancées, ECONOMICA, Paris.

ONU et al. (1995) - Système de Comptabilité Nationale 1993 (SCN 1993), Manuel préparé par un groupe de travail intersecrétariat sur la comptabilité nationale, Washington.

Heckly C. (1990) - Eléments d'économie pratique, Harmattan, Paris.

Gourieroux C. (1989) - Econométrie des variables qualitatives, Col. Economie et Statistiques avancées, ECONOMICA, Paris.

Rubin D.B. (1987) - Multiple imputation for nonresponse in surveys, Wiley, New-

York.

TABLE DES MATIÈRES

Dédicace et remerciements 2

Sigles et abréviations 3

Sommaire. 4

Liste des tableaux 5

Liste des graphique. 5

Avant-propos 6

Présentation de la structure 7

Introduction 9

Chapitre 0. Concepts et définitions 10

I. Comptabilité nationale 10

1. Définition 10

2. Objet 10

3. Les comptes 11

II. Secteur moderne DSF et secteur moderne non DSF 11

III. Les sources de données 12

Chapitre 1. Généralités et problématique de l'étude 14

I. Contexte et problématique de l'étude 14

II. Cadre théorique 14

1. Non-réponse totale 15

2. Non-réponse partielle 16

3. Les mécanismes de génération des données manquantes 16

4. Traitement de la non-réponse. 17

4.1. Méthode de repondération 18

Mise en application 18

4.2. Méthode d'imputation. 20

a. Généralité sur l'imputation 20

b. Technique d'imputation 20

Chapitre 2. Méthodologie d'estimation des déclarations manquantes 24

I. Méthode utilisée par l 'INSD 25

II. Critique de la méthode présentée 26

III. Proposition de méthode 27

1. Analyse exploratoire. 27

2. Proposition de méthode de repondération 30

a. Justification 30

b. Spécification de la méthode 31

b.1 Estimations des probabilités de réponses 31

b.2 Diagnostics du modèle 34

b.3 Odds ratio 36

b.4 Groupes de réponses 38

Chapitre 3. : Estimation des DSF des entreprises du secteur moderne. 39

I. Estimation de la production et de la CI 39

1. Estimation de la production 39

2. Estimation de la consommation intermédiaire 40

II. Estimation de la rémunération des salariés et de l'impôt sur production 40

1. Estimation de la RS 41

2. Estimation de l'impôt sur production 41

Recommandations 42

Conclusion. 43

Annexes 44

Annexe1 : Etat de non-réponse et constitution de l'échantillon. 45

Annexe 2 : Test de classification de donnée et d'autocorélation 47

Annexe 3 : test d'adéquation du modèle 48

Annexe 4 : caractéristique de groupes de réponse construits 49

Annexe5 : Résultats de l'estimation pour l'année 2000 50

Annexe 6 : Résultats de l'estimation pour l'année 1999 52

Annexe 7: Résultats de test de Marasculo 54

Références bibliographiques 55

Table des matières 56

précédent sommaire






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Qui vit sans folie n'est pas si sage qu'il croit."   La Rochefoucault