WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Relation eau-assainissement et mortalité des enfants de moins de cinq ans en RDC.Approche par le modèle de Cox à risque proportionnel

( Télécharger le fichier original )
par Ibrahim NGINAMAU MASUMU
Université de Kinshasa/RDC - Licence en Sciences économiques 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE PREMIER

E~IDE DI M~DELE D'ANAL YSE

1.1. Contexte de l'étude

L'accès à l'eau et à l'assainissement est une question de vie ou de mort. Mais quels sont les risques aux quels sont confrontés ceux qui n'y ont pas accès ? Si l'on considère l'ampleur du problème en terme des maladies et de décès pour le cas spécifiquement des enfants de moins de cinq ans, il est surprenant de constater à quel point la question évoquée précédemment suscite peu d'intérêt dans la littérature conjoncturelle.

Ce chapitre présente une étude charpentée sur le risque de mortalité lié à l'accès à l'eau et l'assainissement. Il présente en outre des techniques d'analyses utilisées ou mieux adaptées dans le domaine de la recherche médicales et économique pour analyser la relation entre le comportement ou traitement et la santé.

En épidémiologie étiologique, on est amené à prendre en compte simultanément le rôle de plusieurs facteurs de risque dans la survenue d'une maladie. En recherche clinique, on cherche à établir la relation liant une maladie à des facteurs pronostiques. Les modèles multi variés permettent de représenter la variable étudiée en fonction de plusieurs autres variables. Les principaux modèles utilisés sont la régression linéaire multiple, la régression logistique ou le modèle logit, le modèle de COX, etc.

Le choix du type de modèle est lié à la nature des variables

considérées.

· La régression linéaire multiple : dans ce type de relation la variable à expliquer est quantitative, sa distribution est normale.

· La régression logistique : ici par contre la variable à expliquer est dichotomique, les variables explicatives peuvent être qualitative ou quantitative. Ce modèle permet de déterminer la probabilité de survenu de l'événement étudié en fonction des facteurs explicatifs.

· Le modèle de Cox : la variable expliquée est dichotomique, les variables explicatives peuvent être qualitatives ou quantitatives. Ce modèle permet d'exprimer le risque instantané de survenue d'un événement en fonction des facteurs explicatifs.

Dès lors, notre recherche repose sur ce dernier type de modèle de Cox à risque proportionnel de réalisation d'un phénomène sous étude. Mais bien avant, il sera question de baliser le chemin à travers la grande famille de modèles notamment celui de survie auquel le modèle de Cox prête une partie de ses interprétations.

1.2. Le modèle de durée de vie 1.2.1. Généralités

On rappelle tout d'abord quelques fonctions associées à une durée de vie et leurs propriétés. La loi de distribution d'une variable aléatoire continue à densité est totalement caractérisée par celle-ci, ou tout aussi biens par la fonction de répartition associée.

Dans le cas d'une variable aléatoire modélisant une durée de vie (supposée continue à densité) ; on a coutume, en démographie mathématique, de considérer d'autres fonctions également caractéristiques, et pour certaines d'interprétations plus immédiates.

Soit une variable aléatoire de durée de vie. On désignera par :

· f(t) la densité à valeurs dans R+ (?80 f(x)dx=1) ;

· F(t)=P(T<t)=?t0f(x)dx la fonction de répartition, qui mesure la probabilité de mourir au plus tard en temps t.

· S(t)=P(T=t)=1-F(t)= ?8t f(x)dx la fonction de survie, qui mesure la probabilité de survivre à temps t.

· h(t)=F(t)/s(t)=-d(ln(s)/dt) la fonction de risque, « hazard function » pour les Anglo-saxons et parfois force de mortalité(désuet). Elle s'interprète comme la densité de mortalité en temps t conditionnée par la survie jusque-là. Cette fonction est à cheval entre les deux fonctions précédentes.

· H(t)= ?t0 h(x)dx la fonction de risque cumulé

· e(t) l'espérance de survie si on a vécu jusqu'à temps t.

Notons que n'importe laquelle des fonctions ci hautes est caractéristique de la distribution de durée de vie. Voici quelques unes des autres relations qui les lient :

· S(t) = exp (-?t0h(x)dx) ou h(t)=d[ -ln(S(t))]dt

· H(t) =-ln[s(t) ]

· e(t)= [?8t s(x)dx ] / s(t)

1.2.2. Les distributions classiques

Nous présentons à titre d'exemple quelques familles de distributions usuelles avec leurs propriétés.

A. Distributions exponentielles (un paramètre ë positif)

f(t)= ë exp (-ët)

s (t) =exp (-ët)

h(t)= ë

H(t)= ët

C'est la distribution à risque constant ou sans mémoire. Cette propriétaire est caractéristique ; il est équivalent de dire que le logarithme de survie Ls=ln(s), est linéaire.

Il est par ailleurs à noter que le mélange des distributions exponentielles ne donne pas une distribution exponentielle (de même que celui de loi normale ne donne pas une loi normale).

B. Distributions de Weibull (deux paramètres a et â, positifs).

Ces fonctions présentent les formes ci-après :

· f(t)= aâ(ât) c-1exp[~ât) a]

· S(t)=exp[-(ât) a]

· h(t)= aâ(ât) a-1

· H(t)= (ât) a

Pour a=1 on retrouve la distribution exponentielle comme pour celui-ci, la fonction de risque est monotone. Le logarithme de l'antilogarithme de la fonction de survie : ln[-ln(s) ] parfois abusivement noté LLs, est une fonction affine, cette propriété est caractéristique.

La distribution de Weibull est une distribution théorique fréquence = f(vitesse) qui est une bonne approximation de la plupart des histogrammes des vitesses de vent. Elle comporte deux paramètres: le paramètre de forme et le paramètre d'échelle. Nous utilisons un paramètre de forme constant égal à 2. Quant au paramètre d'échelle, il est proportionnel à la vitesse moyenne comme l'indique le graphique ci-dessous indiquant la forme de la distribution de Weibull.

Graphique 1: La distribution de Weibull

Source :www.windatlas.ca/fr/faq.php

C'est cette distribution approchée qui est utilisée dans la formule de turbine au lieu de l'histogramme complet, ce qui simplifie grandement le calcul de la puissance produite par la turbine. Tel était le but pour lequel la distribution de Weibull a été utilisée pour la première fois.

C. Distribution log-normal( deux paramètres a et â positifs)

C'est la loi d'une variable aléatoire dont le logarithme suit la

lois N[ln(1/a), â]

f(t)= [1/ât(2ð)1/2]exp { [-ln(ta) ]2/2â2 } où ð la probabilité de survie

s(t)=1-Ö[ln(ta)/ â] où Ö est la fonction de répartition de la loi normale N(0,1).

1.2.3. Estimation des modèles

Les modèles de survie se prêtent à divers types

d'estimations :


· L'estimation fonctionnelle (ou non paramétrique), qui vise à approximer l'une ou plusieurs des différentes fonctions caractérisant la distribution observée (F ou h le plus souvent) sans faire d'hypothèse sur celle-ci.

cette procédure est exécutée suivant trois étapes (procédure SAS). Il s'agit de la procédure LIFEREG, LIFETEST et la procédure PHREG pour l'estimation de modèle à risque proportionnel tel que le modèle de Cox dans l'utilisation du logiciel SAS (Statistical Analysis Systems).

· L'estimation paramétrique qui, ayant retenue une forme de distribution donnée (par exemple la loi exponentielle ou la loi de WEIBULL)8 cherche à en estimer les paramètres. Un terme correctif pouvant prendre en compte l'effet de variables exogènes ou covariables.

Exemple / : le modèle à temps accéléré : S(t/x)=S0(t eâx) où So représente la fonction de survie de base retenue, Xj un vecteur des covariables et âi les coefficients associés.

Exemple 2 : le modèle à risque proportionnel : h(t/x)=ho(t) eâx où ho est la fonction de risque de base retenue.

· L'estimation semi paramétrique qui, pour des modèles de la forme précédente cherche à estimer l'influence des facteurs exogènes sans hypothèse concernant la distribution de base.

Par ailleurs, une difficulté supplémentaire provient du fait que les données peuvent être tronquées ou censurées. Pour nous limiter à ce cas, on dira qu'une observation de durée de vie est censurée à droite si on connaît non la date décès mais simplement une date de dernière observation du sujet vivant ; ce serait renoncer à une part d'information que d'écarter une telle observation, son exploitation demande néanmoins un traitement particulier. Mais que signifie exactement le terme « censure » dans l'analyse économique des séries de durée de vie ?

Il sied de noter que pour chaque sujet dans une étude de durée de vie, on connaît la date du début de l'observation (date d'origine), la date des dernières nouvelles et l'état par rapport à l'événement étudié. Les sujets pour lesquels on ne connaît pas l'état à la date de fin de l'étude ou ceux dont la réponse par rapport à la survenue de l'événement est négative, constituent tous des données censurées.

Le terme censure est beaucoup plus utilisé en démographie.

A. Le modèle à temps accéléré

Ce modèle suppose que la fonction de survie S(t) conditionnée par les variables exogènes que nous désignons globalement par x, se ramène à une fonction de survie de base So(t), selon une relation :

8 http://www.windatlas.ca/fr/faq.php

S(t/x)=So(t eâx)

Où â désigne le vecteur des coefficients associés aux variables. L'estimation d'un tel modèle demande que soit spécifiée la distribution de base, elle opère par la méthode classique du maximum de vraisemblance que nous développerons dans les pages qui suivent.

B. Le modèle à risque proportionnel

Ce modèle, introduit par COX, suppose que la fonction de risque h(t) conditionnée par les variables X se ramène à une fonction de risque de base h0(t) selon la relation :

h(t/x)=ho(t) eâx

C'est en outre le risque lui-même qui est « modulé » en fonction des variables exogènes. Ce modèle, qui en général, n'est pas équivalent au précédent présente les particularités suivantes :

1. Il est caractérisé par des courbes LLs (ou ln [-ln(s) ], logarithme de l'antilogarithme de la fonction de survie) parallèles pour les diverses combinaisons des variables des covariables, ce qui permet une identification géométrique sur ces courbes estimées.

2. Il est possible d'estimer les coefficients âi sans faire d'hypothèse sur la forme de ho (il est néanmoins possible d'estimer la distribution de base).

3. On peut inclure dans les exogènes des variables dépendant du temps, dont la significativité éventuelle permet de récuser le modèle. Le cas le plus simple est celui où les exogènes se réduisent à une variable indicatrice permettant aussi de tester l'homogénéité de deux sous populations.

1.2.4. Méthodes d'estimation des modèles de survie

La méthode la mieux indiquée pour la prise en compte simultanément du rôle de plusieurs facteurs de risque dans la survenue d'une maladie est celle de maximum de vraisemblance. Elle est souvent utilisée sur des données épidémiologiques. Sa spécificité tient surtout dans la prise en compte de la censure dans la détermination des estimateurs.

Il va donc sans dire que parmi les hypothèses qui sous- tendent l'utilisation de moindre carré ordinaire, utilisée dans la plupart de régression, nous notons la normalité des erreurs qui est faite pour faciliter la construction des intervalles de confiance et pour faire de l'inférence. Si cette

hypothèse est retenue, les estimateurs des moindres carrés coïncideront avec les estimateurs obtenus avec la méthode de maximum de vraisemblance.

La méthode du maximum de vraisemblance est basée sur l'idée que si nous nous trouvons en présence des possibles valeurs différentes pour un paramètre nous choisirons la valeur avec laquelle le modèle générait avec plus de probabilité, l'échantillon observé. Ainsi, étant donné valeur déterminée d'un paramètre, il faut que nous puissions avoir la possibilité d'établir la probabilité que l'échantillon soit généré. Cette expression qui est

fonction des paramètres inconnus (â0, â1, ä2u) est appelée fonction de vraisemblance que l'on écrit:

L (â0, â1, ä2u)= 1/ [ (2ð ä2u]T/2exp{ Ó(y- â0- â1xt/-2 ä2)}

La méthode de maximum de vraisemblance consiste donc à maximiser la fonction de vraisemblance. Pour simplifier le calcul, on considère Log L à la place de la fonction L puisque L est une fonction monotone dont son logarithme atteindra sa valeur maximum au même point que L.

Ainsi l'expression précédente devient:

à à

Log L=- T/2 log (2ð) - T/2 log (ä2u) - 1/2 ä2 Ó (y- â0- â1xt)2

Dans le cadre de cette étude, la méthode d'estimation aboutira à la détermination des probabilités de survie individuelles, soit:

t

· S0(t)= ? ajà la probabilité de survie au temps t. j=1

t

· Si(t)= ? ajà exp (xiâ ) t

j=1 .

La probabilité de survie au temps t pour un individu i des covariables xi

Le vecteur des estimateurs de maximum de vraisemblance aià est obtenu numériquement comme solution de:

Ó (uk /1- aiuk) = Ó(ul)

K°Fi l °R(ti)

Avec uk=exp (xkâ) ; Fi l'ensemble des individus décédant à ti et R(ti) l'ensemble des individus à risque à ti.

Lors que les dates de décès sont distinctes, une solution analytique existe. Elle est donnée par :

ajà =[1-( ui/ Ó (ul ) ] ui-1l °R(ti)

C'est l'estimateur KAPLAN-MEIER.

On peut retrouver cet estimateur dès lors que xi=0 pour tous

les individus.

t

Soit S(t)= ? (nj-dj ) /nj

j=0

1.3. Modèle de KAPLAN-MEIER 1.3.1. Principe d'estimation

La méthode d'estimation de Kaplan Meier (KM) est aussi appelée par les statisticiens anglosaxons Product Limit Estimations (PLE). Le point central de cette méthode est l'estimation de la distribution de la fonction de séjour ou survie S(t), c'est-à-dire, la distribution au cours du temps de la probabilité de ne pas avoir connu l'événement auquel on s'intéresse. En d'autres termes, l'intérêt porte plus sur le fait de rester dans une situation que sur la transition vers une autre situation.

1.3.2. Estimation de la fonction de séjour

Si T, variable aléatoire, représente la durée écoulée depuis un instant to pour chaque individu avant qu'il n'ait connu l'échéance de l'événement alors :

S(t) = P(T > t)

Lorsque le temps est considéré de manière discrète, si ti représente un instant au cours duquel il y a l'observation d'au moins un événement, alors la probabilité de survie au temps ti est égale à la probabilité d'avoir survécu avant ti multipliée par la probabilité « conditionnelle » de survivre au temps ti. L'emploi du terme « conditionnel » veut dire ici qu'il s'agit de la probabilité de survivre au temps ti sachant que les individus étaient survivants en ti:

S(ti )=S (ti-1 )* P(T>ti /T=ti )

Ces différentes probabilités sont estimées à partir de l'effectif de la population qui est soumis au risque de connaître l'événement, ainsi qu'à partir de l'effectif des personnes qui connaissent l'événements en ti. Appelons di et ci, les effectifs des individus qui, respectivement, connaissent l'événement et sortent d'observation (censures à droite) en ti. L'effectif Ni des individus soumis au risque de connaître l'événement en ti correspond à l'ensemble des individus qui, juste avant que cet instant ti n'ait été atteint, n'avaient, ni connu l'événement observé, ni n'étaient sortis d'observation. En d'autres termes, l'effectif de la population soumis au risque représente l'ensemble des individus qui connaîtront ou qui sortiront d'observation en ti ou après. Dans le cas de l'estimation de Kaplan-Meier, on considère que les sorties d'observation ci ont lieu une fraction de temps après les échéances di (Blossfeld et Rohwer, 2001). Dès lors, la proportion hi des individus qui ont connu l'événement à l'instant ti correspond à :

hi = di/Ni

Et, dans ce cas, (1-hi ) représente la proportion de personnes n'ayant pas connu l'événement, la probabilité de survie en ti devient alors :

S(ti)=S (ti-1) (1-hi )

Par extension, S(t) correspond au produit de toutes les probabilités de n'avoir pas connu l'événement depuis le début de l'observation :

S(t )= ?(1-hi)

ti<t

1.4. Méthode d'estimation actuarielle

Nous garderons ici une structure de présentation des méthodes d'estimation actuarielles similaire à celle que nous avions adopté lors de la présentation des méthodes de Kaplan Meier. Les méthodes actuarielles sont plus orientées dans l'analyse statistique et dans le calcul des probabilités appliquées dans des domaines diverses tels que dans l'assurance, la prévoyance, dans le calcul d'amortissement,...

Principe d'estimation des différentes distributions A. Estimation du risque et du risque cumulé

Les méthodes d'estimation actuarielle reposent sur l'hypothèse selon laquelle le risque instantané hi est constant tout le long de l'intervalle de temps (Le Goff, 1994). On considère, en outre, que les échéances, et les sorties d'observation, ont lieu uniformément durant l'intervalle de temps [ti, ti÷i[. Ainsi, si l'intervalle de temps pris en compte est d'une année, on considère qu'il y a autant de personnes qui connaissent l'événement en janvier, février, ou en décembre. Il en est de même en ce qui concerne les sorties d'observation.

Ceci signifie que les individus qui sortent d'observation ou qui connaissent l'événement durant cet intervalle de temps sont, en moyenne, soumis au risque de connaître l'événement pendant la première moitié de cet intervalle de temps (les six premiers mois de l'année). En conséquence, la population soumise au risque de connaître l'événement durant l'intervalle de temps correspond à l'effectif de la population qui n'avait pas encore connu l'événement au début de cet intervalle, diminuée de la moitié des personnes ayant connu l'événement d'une part et de la moitié des personnes étant sorties d'observation d'autre part. Rigoureusement parlant, il s'agit en fait du nombre d'enfants-années présents, en moyenne, au cours de l'intervalle de temps.

Si di représente l'effectif des enfants connaissant la transition entre ti et ti÷i, ci le nombre des sorties d'observation au cours de cet intervalle de temps et si Ni est l'effectif des enfants soumis au risque en ti, alors Pi, le nombre de enfants- années durant l'intervalle de temps sera :

Pi=Ni-1/2(di+ci)

L'estimateur du risque h(ti) est :

h(ti)=di/Pi

di

=

Ni-1/2(di+ci) (Courgeau et Lelièvre, 1989)

Par ailleurs le risque cumulé H(ti) est estimé à partir des valeurs de h(tk) où k(1,2,...,i) par :

H(ti)= Ó log[1 -h(tk )]

k<i

Si les valeurs de h(tk) sont petites (de l'ordre de 0,01 à 0,05), ce qui est très fréquemment le cas, l'estimation de H(ti) pourra être simplifiée par :

H(ti)= Ó [h(tk)]

k<i

B. Estimation de la distribution de la fonction de séjour et de la densité de
probabilité

Dans les tables classiques de démographie, par exemple, la table de mortalité, il est d'usage de présenter la série des « quotients ». Ces quotients correspondent à la probabilité de connaître l'événement durant l'intervalle de temps considéré, conditionnellement au fait que les individus n'avaient pas encore connu cet événement au début de l'intervalle de temps. Si qi représente le quotient de connaître l'événement durant l'intervalle de temps [ti, ti÷1[, alors :

di

qi=

Ni-1/ 2ci

et (1-qi) représentera la proportion des personnes n'ayant pas connu l'événement. L'estimateur non-paramétrique de la fonction de séjour sera estimé par :

S(ti)=S(ti-1)(1-qi)

Par extension, S(ti) correspond alors au produit de toutes les probabilités de n'avoir pas connu l'événement entre le début de l'observation et ti :

S(ti)= ? (1-qi)

t <t i

La variance de S(ti), qui permet ensuite d'obtenir l'écart type et l'intervalle de confiance, est estimée de la façon suivante (Blossfeld et Rohwer, 2001):

dk/ Nk

Var [S(ti) ]=[S(ti) ]2 Ó

k<i (1-dk/ Nk)ki

Par ailleurs, la densité de probabilité f(ti) est :

f (ti) =h(ti)S (ti)

1.5. Le modèle de durée de vie

Il arrive souvent que vous souhaitiez examiner la distribution des temps entre deux événements, telle que l'ancienneté (durée entre la date d'embauche et le départ de l'entreprise). Cependant ce type de données inclut généralement certaines observations pour lesquelles le second événement n'est pas enregistré, par exemple pour les employées toujours en activité. Cela peut se produire pour plusieurs raisons : pour certaines observations, l'événement n'a simplement pas lieu avant la fin de l'étude tandis que pour d'autres, nous perdons la trace de leur état avant la fin de l'étude. Certains observations, enfin, ne peuvent plus être poursuivies pour des raisons indépendantes de l'étude (employés en conge maladie, etc.) collectivement, on appelle ces observations des observations censurées. Elles rendent ce type d'étude inappropriée aux études traditionnelles comme les tests t et la régression linéaire.

Une technique statistique utile pour ce type de donnée est appelée une durée de vie de suivi. L'idée de base de la durée de vie est de subdiviser la période d'observation en intervalles de temps plus petits. Pour chaque intervalle, tous les individus observes au moins sur cette durée sont utilises dans le calcul de la probabilité de l'événement final qui se produit au cours de cet intervalle. Les probabilités estimées sur chaque intervalle sont ensuite utilisées pour estimer la probabilité globale de l'événement se produisant a différentes dates.

Exemple : un patch à la nicotine est-il plus efficace que le traitement par patch traditionnel pour aider des patients a arrêter de fumer ? Vous pouvez mener une étude à l'aide de deux groupes de patients fumeurs, l'un recevant une thérapie classique et l'autre le traitement expérimental. La construction de la durée de vie vous permet de comparer les taux d'abstinence globale entre les deux groupes pour déterminer si le traitement expérimental constitue un progrès par rapport à la thérapie classique. Vous pouvez également représenter graphiquement la survie ou les fonctions de hasard pour obtenir des informations plus détaillées.

Statistiques : nombre d'entrants, nombre de sortants, nombre d'individus exposes au risque, nombre d'événements finals, proportion d'individus terminant, proportion d'individus survivants, proportion de survivants cumulés (et erreur standard), densité de probabilité (et erreur standard), taux de hasard (erreur standard) pour chaque intervalle de temps et pour chaque groupe, temps de médiane de survie pour chaque groupe et test de wilcoxon (gehan) pour comparer les répartitions de survie entre les groupes.

Diagrammes : fonction pour survie, survie sur échelle log, densité, taux de hasard, et un moins survie.

1.6. Le modèle de Cox à prédiction chronologique

A coté des modèles de Kaplan Meier, de durée de vie, on note également le modèle de Cox à prédiction chronologique dans la famille des modèles de survie.

Dans certaines situations vous souhaiteriez calculer un modèle de régression de Cox mais l'hypothèse des probabilités proportionnelles n'est pas satisfaite. Les taux de probabilité varient dans le temps. Les valeurs de l'une ou plusieurs de vos covariables sont différentes à différentes dates. Dans ce cas, vous devez utiliser une version étendue du modèle de régression de Cox, vous permettant de spécifier des prédicteurs chronologiques.

Pour analyser un tel modèle, vous devez avant tout définir votre covariable chronologique. (Plusieurs covariables chronologiques peuvent être spécifiées à l'aide du langage de commande.) Pour faciliter cela, vous disposez d'une variable système représentant le temps. Cette variable s'appelle T_. Vous pouvez l'utiliser pour définir des covariables chronologiques de deux façons :

Si vous souhaitez tester l'hypothèse des probabilités proportionnelles à propos d'une covariable spéciale, ou si vous souhaitez estimer un modèle de régression de Cox étendue qui autorise les probabilités non proportionnelles, vous pouvez définir un prédicteur chronologique sous la forme d'une fonction de la variable de temps T_ et de la covariable en question.

Exemple : le simple produit de la variable de temps et de la covariable. Vous pouvez également définir des fonctions plus complexes. En testant la signification du coefficient de la covariable chronologique, vous saurez si l'hypothèse des probabilités proportionnelles est pertinente.

Certaines variables peuvent avoir différentes valeurs à des périodes différentes sans pour autant être liées au temps (chronologiques). Dans ce cas, vous devez définir une covariable chronologique segmentée à l'aide d'une expression logique. Les expressions logiques prennent la valeur 1 si elles sont vraies, 0 si elles sont fausses. A l'aide d'une série d'expressions logiques, vous pouvez créer votre covariable chronologique à partir d'un ensemble de mesures. Par exemple, si votre pression artérielle est prise une

fois par semaine pendant les quatre semaines de votre étude, (mesures identifiées par PA1 à PA4), vous pouvez définir votre prédicteur chronologique sous la forme (T_ < 1) * PA1 + (T_ >= 1 & T_ < 2) * PA2 + (T_ >= 2 & T_ < 3) * PA3 + (T_ >= 3 & T_ <4) * PA4. Notez qu'un et un seul des termes entre parenthèses est égal à 1 pour chaque cas, tandis que les autres termes sont égaux à 0. Cette fonction peut être interprétée ainsi : "Si le temps est inférieur à une semaine, utilisez PA1. S'il est supérieur à une semaine mais inférieur à deux, utilisez PA2, et ainsi de suite".

Pour les covariables chronologiques segmentées, les observations pour lesquelles il manque des valeurs sont supprimées de l'analyse. Vous devez donc vous assurer que toutes les observations sont pourvues de valeurs pour toutes les dates mesurées, même pour les dates après que l'observation est retirée de l'univers des possibles (à cause d'un événement ou de la censure). Ces valeurs ne sont pas utilisées dans l'analyse mais elles doivent constituer des valeurs SPSS valides pour éviter l'abandon de certaines observations. Par exemple, selon la définition ci-dessus, une observation censurée lors de la deuxième semaine doit toujours avoir des valeurs pour PA3 et PA4 (ces valeurs peuvent être nulles ou de tout autre valeur, puisqu'elles ne servent pas dans l'analyse).

Dans la boîte de dialogue Calculer la variable temporelle, vous pouvez utiliser des commandes de construction de fonction pour construire l'expression pour le prédicteur chronologique ou bien vous pouvez l'entrer directement dans Expression pour la zone de texte T_COV_. Notez que les constantes alphanumériques doivent être saisies entre guillemets ou apostrophes, tandis que les constantes numériques doivent être en format Américain avec un point en tant que séparateur décimal. La variable résultante s'appelle T_COV_ et doit être incluse en tant que covariable dans votre modèle de régression de Cox.

1.7. Le modèle de Cox à risque proportionnel 1.7.1. Introduction

L'analyse du risque est de plus en plus utilisée en médecine pour découvrir de nouvelles cibles thérapeutiques en vue d'améliorer le mode de traitement des maladies. De ce fait, les résultats de l'analyse seront donc des réservoirs convainquant pour la prise des décisions des autorités compétentes. Cette analyse suppose la prise en compte de l'expression des divers variables explicatives dont la combinaison aboutira à la prédiction du risque de mortalité.

Le modèle de régression à risque proportionnel proposé par COX en 1972 pour étudier la relation entre le temps d'apparition d'un événement et un ensemble de covariables en présence de censure est, sans conteste, le modèle le plus utilisé pour l'analyse des données de survie. Il suppose cependant, comme tout modèle de régression multiple, plus d'observations que des variables non fortement corrélées entres elles ; même si ces contraintes deviennent souvent rédhibitoires dans la pratique.

1.7.2. Les principes généraux et définitions

Le modèle de COX s'applique souvent aux études cliniques et surtout à toute situation où l'on étudie le délai de survenue d'un événement. Cet événement peut être la récidive d'une maladie, la réponse à traitement, le décès,...Les sujets entrent dans l'étude au fur et à mesure qu'elle se déroule. Pour chaque sujet, on connaît la date du début de l'observation (date d'origine), la date des dernières nouvelles et l'état par rapport à l'événement étudié. Le sujet pour lesquels on ne connaît pas l'état à la date de fin de l'étude ou ceux dont la réponse par rapport à la survenu de l'événement est négative constitue des données censurées.

Les valeurs des variables explicatives Xj sont notées pour chaque sujet à la date de son entrée dans l'étude. Ces variables peuvent être qualitatives ou quantitatives. Le variable considérée (T) est le délai entre la date d'origine et la date de survenue de l'événement étudié. Le modèle de Cox permet d'exprimer le risque instantané de survenue de l'événement en fonction de l'instant t et des variables explicatives Xj. Ces variables peuvent représenter des facteurs de risque, des facteurs pronostiques, des traitements, des caractéristiques intrinsèques au sujet,...

Le risque instantané de survenu de l'événement ë (t/ x1, x2,..., xp) représente la probabilité d'apparition de l'événement dans un intervalle de temps (t, t+st) sachant que l'événement ne s'est pas réalisé avant l'instant t. le modèle de Cox exprime ë (t/ x1,x2,...,xp) sous la forme :

p

ë ( t/x1,x2,...,xp) = ë0(t) exp { Ó âi xj }

j=1

Cette formule appelle quelques commentaires :

2. Si par exemple, les variables Xj représentent des facteurs de risque et si
elles sont toutes égales à 0, ë0(t) est le risque instantané de sujets ne présentant aucun facteur de risque ;

3. La forme de ë0(t) n'étant pas précisée, c'est plutôt l'association entre
variables Xj et la survenue de l'événement considéré qui est l'intérêt central du modèle. Cela revient à déterminer les coefficients âj ;

4. Le rapport des risques instantanés de deux individus dont les
caractéristiques respectives sont (x1,x2,..., xp) et (x'1,x'2,..., x'p) est donné par :

(x1, x2,..., xp) exp (Ó âj xj)

=

(x'1,x'2,..., x'p) exp (Ó âj x'j)

Ce rapport ne dépend pas du temps. De tels modèles sont dits à risques proportionnels. C'est une hypothèse importante du modèle de Cox.

1.7.3. Interprétation théorique des coefficients du modèle

Soit Xi la variable dichotomique qui prend les valeurs 0 ou 1 selon l'absence ou la présence de le caractéristique considérée. Le rapport à la classe 0 est :

ë (t, 1)/ ë(t, 0) = eâ

Le coefficient â est donc le logarithme du risque instantané relatif de la classe 1 par rapport à la classe 0.

De façon générale, les coefficients âj représentent l'effet de la caractéristique Xj et la survenue de l'événement. Si âj est nul, la j-ième caractéristique n'a pas d'influence sur l'événement considéré. Si âj est positif et si deux sujets ne diffèrent que par la j-ième caractéristique, alors ils sont associés à un risque instantané plus élevé. Inversement, si âj est négatif, des valeurs élevées de la j-ième caractéristique sont associées à un risque instantané plus faible.

L'interprétation théorique des coefficients repose

particulièrement sur le signe de la spécification économique. Cependant, une probabilité positive indique bel et bien la possibilité de réalisation de l'événement sous analyse peu importe sa grandeur numérique. Ceci est vrai dans la mesure où, dans l'analyse statistique des variables stochastiques, une faible probabilité peut effectivement rendre l'événement certain pour l'individu i et non pour l'individu j contraire pour une probabilité importante

qui, au premier regard, peut prétendre avoir le maximum de possibilité de réalisation de l'événement.

1.7.4. Estimation et tests paramètres 1.7.4.1. La méthode de maximum de vraisemblance

C'est une technique qui, sous l'hypothèse que les variables ont une distribution connue, usuellement la distribution normale, permet d'estimer les paramètres d'un modèle (d'une équation ou d'un système, linéaire ou non linéaire) avec des restrictions sur les paramètres (coefficients, matrice de variances et covariances) ou non. Plus spécifiquement la technique consiste à construire une fonction appelée fonction de vraisemblance (construite à partir de la fonction de densité) et à maximiser son logarithme par rapport aux paramètres inconnus.

Par exemple, soit un modèle de régression simple:

Où Yt et Xt sont des scalaires,

sont des paramètres à estimer, et

est identique et indépendamment distribué selon une loi normale .

La méthode du maximum de vraisemblance est la suivante:

1. D'abord, on construit la fonction de vraisemblance qui est définie comme la fonction de densité conjointe des t observations:

2.

Dans nôtre cas, dû au fait que les observations sont indépendantes, cette fonction est calculée comme le produit des fonctions de densité des observations individuelles:

Parce que la variable est distribuée selon une loi normale, est aussi

distribuée selon une loi normale (une combinaison linéaire de variables normales est aussi normale). Par conséquent la fonction de vraisemblance est:

3. Ensuite, pour faciliter la solution du problème de maximisation on calcule le logarithme de la fonction de vraisemblance (les résultats de la maximisation de la fonction de vraisemblance exprimée ou non en logarithmes sont identiques):

.

4. Finalement on maximise le logarithme de la fonction de vraisemblance par rapport aux paramètres inconnus

On obtient un système de trois équations constituées par les conditions de premier ordre du problème de maximisation (les dérivées du logarithme de la fonction de vraisemblance par rapport à chacun des paramètres sont égalisées à zéro). Dans ce problème les estimateurs peuvent être facilement obtenus à partir de la solution du système.

Mais, très souvent, on obtient un système d'équations difficile à résoudre, raison pour laquelle on fait appel à des méthodes numériques, basées sur l'utilisation intensive de l'ordinateur (méthodes itératives). Le problème avec cette méthode est qu'on ne peut pas savoir si les estimations maximisent localement ou globalement la fonction de vraisemblance et par conséquent le choix des valeurs initiales pour les paramètres du modèle est important.

Cette méthode permet de calculer, à partir d'un échantillon observé, la (les) meilleure(s) valeur(s) d'un paramètre d'une loi de probabilité. En voici le principe:

Si un phénomène X a été l'objet de n observations indépendantes x1, x2, ..., xn les unes des autres, sa loi de probabilité (dans le cas discret : loi binomiale, loi de Poisson) ou sa densité (en cas de loi continue, comme la loi normale) est une fonction f (x, p1, .., pk) où les pk sont les paramètres de la loi. Afin de calculer ces paramètres, on cherche à maximiser la probabilité de la conjonction des valeurs effectivement observées x1, x2, ..., xn. L'indépendance permet d'écrire que le produit:

f(x1, p1, .., pk) x f(x2, p1, .., pk) x ... x f(xn, p1, .., pk) doit être maximum. La condition nécessaire s'obtient en annulant chaque dérivée partielle de f par rapport à p1, p2, ..., pk. L'expression à dériver étant un produit de nombres strictement positifs, on aura tout intérêt à prendre les dérivées logarithmiques.

On a ici: Pr(B = k) = CN,k x pk x (1 - p)n - k, CN,k désignant le nombre de combinaisons de k objets pris parmi N. Ce nombre ne dépend pas de p. Calculons le produit des probabilités en remplaçant k par chacune des valeurs x1, x2, ..., xn observées de B. Pour plus de commodité, introduisons la moyenne des xi: on a donc ici = (x1+ x2 + . .. + xn)/n. Le produit est:

Dérivons par rapport à p. La dérivée est du signe de n - pnN et s'annule en p = /N. Le coefficient de p dans n - pnN étant négatif, il s'agit d'un maximum. Sous la forme = Np, on retrouve ici l'espérance mathématique de B. Ayant observé n valeurs x1, x2, ..., xn, nous devons maximiser le produit f (x1, m, s) x f (x2, m, s) x ... x f (xn, m, s) où f désigne la densité définie par:

Prenons le logarithme népérien L(m,s) du produit en ne tenant pas compte du ( 2)n indépendant de m et s:

Les dérivées partielles par rapport à m et à s sont respectivement L(m,s)/ m = -S(xi - m)/s2 et L(m,s)/ s = S(xi - m)2/s3 - n/s. Ces dérivées s'annulent lorsque m = S(xi - m) = et s2 = S(xi - m)2/n. On

vérifie facilement qu'il s'agit encore là de maximums. Et les valeurs optimales des paramètres s'avèrent être respectivement les moyenne et écart-type de la série de valeurs observées.

1.7.4.2. Notion de vraisemblance

Etant donné un échantillon observé (x1,x2, ,xn) et une loi

de probabilité Pè, la vraisemblance quantifie la probabilité que les observations proviennent effectivement d'un échantillon (théorique) de la loi Pè.

Prenons l'exemple de 10 lancers de pièce. L'échantillon binaire observé est par exemple:

Pour un échantillon de taille 10 de la loi de Bernoulli de paramètre p, la probabilité d'une telle réalisation est p6(1-p)4. Voici quelques valeurs numériques.

0.4

0.6

0.8

0.2

0.3

0.7

0.5

Il est naturel de choisir comme estimation de p, celle pour laquelle la probabilité de l' échantillon observé est la plus forte, à savoir ici p=0.6.

Définition 1. Soit C={c1, ,ck} un ensemble fini, { Pè} une famille de lois de

probabilité sur , et un entier. On appelle vraisemblance associée à la

famille { Pè}, la fonction qui à un -uplet (x1,x2, ,xn) d'éléments de C et à

une valeur du paramètre associe la quantité:

L'interprétation est la suivante. Considérons un échantillon

théorique (X1,X2, ,Xn) de la loi Pè. Par définition, les variables

aléatoires(x1,x2, ,xn) sont indépendantes et de même loi Pè. Donc la

probabilité que l'échantillon théorique (x1,x2, ,xn) ait pour réalisation

l'échantillon observé (x1,x2, ,xn) est le produit des probabilités pour que Xi

prenne la valeur xi, à savoir:

Dans le cas d'un modèle continu, la loi Pè a une densité sur

, et la probabilité pour que l'échantillon prenne une valeur particulière est toujours nulle. Il faut alors remplacer la probabilité Pè par sa densité dans la définition de la vraisemblance.

Définition 2.Soit { Pè} une famille de lois de probabilité continues sur et un entier. Notons fè la densité de probabilité de la loi Pè. On appelle

vraisemblance associée à la famille{ Pè} la fonction qui à un -uplet

(x1,x2, ,xn) d'éléments de et à une valeur du paramètre associe la

quantité:

L'interprétation est la suivante. Considérons un échantillon

théorique (X1,X2, ,Xn)de la loi continue Pè. Soit un réel strictement positif

(petit). La probabilité que l'échantillon théorique (X1,X2, ,Xn)ait une

réalisation proche ``à près" de l'échantillon observé (x1,x2, ,xn) peut

s'écrire:

Estimer un paramètre par la méthode du maximum de vraisemblance, c'est proposer comme valeur de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d'observer les données comme réalisation d'un échantillon de la loi Pè.

Définition 3. Supposons que pour toute valeur(x1,x2, ,xn), la fonction qui à

associe L(x1,x2, ,xn, è), admette un maximum unique. La valeur pour

laquelle ce maximum est atteint dépend de(x1,x2, ,xn):

Si (X1,X2, ,Xn)est un échantillon (théorique) de la loi Pè., la variable

aléatoire:

est l'estimateur du maximum de vraisemblance de .

Reprenons l'exemple de la loi uniforme sur l'intervalle [0,è].

Sa densité est:

La vraisemblance est la fonction qui à réels x1,x2, ,xn et

à une valeur positive associe:

Vue comme fonction de , la vraisemblance est nulle si est inférieur à la plus grande des valeurs observées, elle vaut 1/èn sinon. Elle est donc maximale pour:

Si (X1,X2, ,Xn)est un échantillon de la loi uniforme U(0,è),

l'estimateur du maximum de vraisemblance de est:

Pour la plupart des lois de probabilité usuelles, l'estimateur du maximum de vraisemblance est défini de façon unique, et se calcule explicitement. Sur le plan théorique, il présente de nombreux avantages. Sous des hypothèses vérifiées par de nombreux modèles courants, on démontre qu'il est asymptotiquement sans biais et convergent. On démontre de plus que sa variance est minimale. La méthode du maximum de vraisemblance est donc théoriquement la meilleure des méthodes d'estimation. Quand une détermination explicite est impossible, il faut avoir recours à une détermination numérique, par un algorithme d'optimisation.

1.7.4.3. Test de signification des paramètres

Le principe pour le modèle de Cox est de n'estimer que les coefficients âj.On ne cherche pas à estimer ë0(t) . Les estimateurs des âj sont obtenus par la méthode de maximum de vraisemblance telle que est exposée précédemment. Plus exactement, seule la partie de vraisemblance comportant de l'information sur les coefficients âjest retenue pour les calculs. On parle de «vraisemblance partielle » ou de vraisemblance de Cox.

On teste l'hypothèse H0 que le vecteur des effets (â1, â2, ... âp) est nul. Trois tests peuvent être utilisés. Il s'agit du test de raison de vraisemblance, le test de Wald et le test du multiplicateur de Lagrange.

A. Le test de raison de vraisemblance LR

Ce test de raison de vraisemblance est généralement applicable à des échantillons de taille élevée. Il est basé sur la méthode du maximum de vraisemblance. Il s'effectue de la manière ci-après:

1. On effectue la régression sur un modèle non contraint et on recueille la somme des carrés des résidus, soit SCRnc;

2. On effectue la régression sur le modèle contraint et on recueille la somme des carrés des résidus selon la forme de ce modèle contraint, soit SCRc;

3. On forme l'expression ë = [SCRc/SCRnc]T/2

Où T est la taille de l'échantillon

4. En prenant le logarithme, on a: ln ë= - T[ln (SCRc)-ln(SCRnc)] = T ln [1/(1-r2)]

Cette expression suit la loi de KHI carré avec 1 degré de liberté.

B. Le test de Wald et de Lagrange

Ces deux tests se basent respectivement sur les expressions

suivantes:

W=Tr2/1-r2 et LM=Tr2

On démontre que9 : W= LR= LM

La dernière phase de l'estimation de vraisemblance est souvent le test de la forme fonctionnelle, c'est-à-dire le test de Ramsey pour

9 Maddala,G.S , Introduction to economica, page 139, 1996è Ed. , Cité par le Professeur KINTAMBU,G.

afin s'assurer de l'utilisation de toutes les variables explicatives du phénomène ; cela permet d'éviter la possibilité d'omission d'une variable importantes dans le modèle. C'est pour quoi, il serait préférable sous certaines conditions de prendre en compte une matrice haute ou danse des variables qui peuvent être projetés ou regrouper en facteur selon leur score. En outre, la solution proposée serait d'opérer dans un premier temps une réduction de la dimension de l'espace des variables exogènes orientée vers l'explication de la fonction du risque. On construira ensuite un modèle de Cox sur les composantes trouvées.

1.7.5. Le modèle de Cox versus le modèle logistique (logit)

Chacun des modèles multi variés que nous avons évoqué en introduction de ce chapitre est plus adapté à un contexte donné de l'étude menée. Le modèle de Cox est adapté aux données dont le délai de suivi est variable selon les sujets et aux données censurées. Si la période de suivi est fixe et qu'il n'y a pas des données censurées, le modèle de régression logistique convient aussi bien que le modèle de Cox.

Dans la formalisation du modèle de Cox, nous avons présenté le modèle sans interaction entre les variables explicatives. Il est possible de tenir compte de l'effet de l'interaction dans l'écriture du modèle. Le modèle de Cox repose sur des hypothèses précises, le risque instantané de survenue de l'événement considéré s'écrit comme le produit d'une fonction qui dépend du temps et d'une fonction qui dépend uniquement des caracteristiques du sujet. C'est l'hypothèse des risques proportionnels multiplicatifs. Le risque instantané de survenue de l'événement est multiplié par une constante quand on change la valeur d'une variable explicative.

La fiabilité des analyses a, en suite, fait l'objet d'une vérification supplémentaire. L'analyse de la mortalité par exemple a notamment été étendue en utilisant la méthode d'appariement sur le score de propension dans le but de vérifier l'endogéneité de la variable de résultat ou les caractéristiques non observées pouvant être corrélées avec par exemple l'accès à l'eau et à l'assainissement comme il en est le cas dans notre recherche.

Par ailleurs, deux méthodes statistiques basiques sont souvent utilisées en pratique, cela dans le but de cerner le risque sous-jacent à l'accès à l'eau et à l'assainissement.

Pour la mortalité néonatale et l'incidence diarrhéique par exemple, on fait appel à un modèle logit standard. Les estimations logit sont utilisées lorsque la variable résultat possède deux valeurs possibles (raison

pour laquelle les logits sont souvent appelés modèles binaires). Les deux résultats possibles sont qualifiés d'échec (y=0) ou de succès (y=1). Dans les estimations logit, les paramètres peuvent s'interpréter comme un changement de probabilité associée à un accroissement d'une unité des variables indépendantes. Les paramètres résultant indiquant donc le changement de probabilité de l'événement fonction des caractéristiques de l'individu, du ménage et de la communauté. Aussi, dans ce modèle, la variable dépendante y est censée suivre la forme de distribution de Bernoulli ou la loi normale conditionnée par le vecteur de variable explicative Xj. La probabilité de succès est donnée par:

P(yi=1/xj)=Ë(xj, â) et P(yi=0/xj)=1- Ë(xj, â) avec Ë(z)=(1+exp-z)-1 la fonction de distribution cumulative du modèle logistique.

La densité conditionnelle peut s'écrire alors:

f(yi/xj)= Ë(xj, â)yi [1- Ë (xj, â)]1-yi

La fonction log-vraisemblance devient:

n

L(â)= Ó log f(yi/xi)= Ó log Ë (xj, â) + Ó log[ 1- Ë (xj, â)]

i=1 j=1 j=0

L'estimation du maximum de vraisemblance est la valeur qui maximise la fonction log-vraisemblance.

Pour les facteurs déterminants en mortalité post-néonatale, le cas échéant, on a besoin d'un cadre d'évaluation plus élaboré en raison du problème posé par les observations censurées. Les données utilisées ne contiennent pas d'observations sur toute la période d'analyse pour l'ensemble des enfants.

Ainsi, un enfant de quatre ans dans notre cas précis au moment de l'enquête et qui meurent à l'age de cinq ans ne sera-t-il pas comptabilisé comme décédé dans le cadre de l'enquête; cette caractéristique induit un biais qu'il faut corriger. Une des manières de régler ce problème est de restreindre l'échantillon aux enfants qui étaient âgés d'au moins cinq ans au moment de l'enquête. Cette méthode éliminerait toutefois un nombre considérable d'observations. Au lieu de cela, on utilise un modèle de risque afin de prendre en compte la mortalité. On applique alors un modèle à risque proportionnel de Cox. Attendre que le taux de risque sous-jacent ne soit pas modélisé par une formulation fonctionnelle, ce modèle est une estimation semi paramétrique. Il ne requiert qu'une seule hypothèse structurelle: «l'effet des covariables sur le taux de risque relatif doit être constant durant la période

considérée ». La fonction de risque conditionnel du modèle de Cox étant donné un vecteur dimensionnel de covariables xj est donnée par la formule:

ë (t/x) = ë0 (t) exp(â'x) où â' (â1, â2,..., âk)' est le vecteur

des paramètres (changement proportionnel dans la fonction de risque) et ë0 (t) la fonction de risque de référence.

Les paramètres â' peuvent être estimés sans estimation de ë0 (t) ; en utilisant la vraisemblance maximale. Soit ti avec i=(1,2,..,N); di l'indice servant à noter la suite ordonnée d'instants ti marqués par un échec, Di le nombre d'observations manquantes à ti, Ri. La série d'observations à ti, et Ri le risque définie, la fonction log-vraisemblance partielle peut alors s'écrire:

n

L(â)= Ó di[ â'xj- ln( Ó exp( â'xj)) ] i=1 j°R

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille