Memoire Online - Modélisation spatiale hiérarchique bayésienne de l'apparentement génétique et de l'héritabilité en milieu naturel à l'aide de marqueurs moléculaires

L'objectif dans ce chapitre est de proposer des méthodes d'estimation des paramètres génétiques en milieu naturel. Comme nous avons choisi de nous placer dans un cadre bayésien, nous rappelons tout d'abord les outils nécessaires pour l'inférence statistique bayésienne, notamment les méthodes de Monte Carlo et les méthodes de Monte Carlo par Chaînes de Markov (MCMC). Nous proposons ensuite trois algorithmes pour l'estimation de l'apparentement en milieu naturel. Les 2 premiers algorithmes sont des algorithmes de Metropolis-Hastings et la différence entre ces algorithmes est principalement liée au choix de la loi de proposition. Nous présentons ensuite un algorithme pour estimer à la fois l'apparentement et l'héritabilité lorsque le pedigree n'est pas connu.

3.1 L'inférence statistique bayésienne et les méthodes de Monte Carlo par Chaînes de Markov

Les méthodes statistiques fréquentistes considèrent les paramètres comme des quantités fixes alors que les méthodes statistiques bayésiennes considérent les paramètres comme des variables aléatoires. La différence principale entre l'approche bayésienne et l'approche classique dite fréquentiste est que la première propose une loi de probabilité sur les paramètres (Robert, 1992). Les paramètres ne sont donc plus considérés comme des quantités fixes mais comme des variables aléatoires dont nous avons une connaissance plus ou moins exacte. Cette connaissance est traduite par le choix d'une distribu-

tion a priori sur les paramètres. On appelle modèle statistique bayésien la donnée d'un modèle statistique paramétré ayant pour fonction de densité fY |ö(Y |ö) et d'une loi a priori sur les paramètres notée ðö(ö) qui admet pour fonction de densité fö(ö) (Robert, 1992). La loi a posteriori de ö est obtenue par utilisation de la version continue de la formule de Bayes (1763) :

La principale différence entre l'approche bayésienne et l'approche dite classique ou fréquentiste basée sur la vraisemblance est que la vraisemblance est, avec l'approche bayésienne, modifiée en une loi a posteriori donnée par la formule 3.1 et représente l'actualisation de l'information a priori, donnée par la loi a priori ðö(ö), au vu de l'information contenue dans les observations, fY |ö(Y |ö) (Robert, 1992; Marin et Robert, 2007).

Le choix de la loi a priori reste un problème délicat en statistique bayésienne. Lorsque des connaissances a priori sur les données ou le modèle sont disponibles, elles pourront ou devront être utilisées pour le choix de la loi a priori (Marin et Robert, 2007). Cependant, il faut bien souligner que l'introduction d'une loi ðö sur les paramètres ö divisent depuis de nombreuses années les statisticiens (Robert, 1992; Efron, 2005). L'inférence statistique bayésienne est basée sur les distributions a posteriori des paramètres du modèle. Ainsi l'inférence bayésienne est réalisée conditionnellement aux observations et l'analyse bayésienne donne un sens probabiliste bien précis à ce conditionnement en attribuant une loi de probabilité aux paramètres (Parent et Bernier, 2007). Le problème est de calculer les caractéristiques a posteriori des paramètres ö, de certaines fonctions des paramètres h(ö) ou des espérances, sous la loi a posteriori, de ces fonctions de la forme :

Il peut s'agir, par exemple, de la moyenne a posteriori qui est donnée par l'espérance de ö sous la loi a posteriori

Le plus souvent, le paramètre ö est un vecteur multidimensionnel de dimension K, de la forme ö = (ö1, ö2, ... , öK) et le calcul du dénominateur dans l'expression de la loi a posteriori (Equation 3.1) fait intervenir une intégrale multiple. Ce calcul pose souvent problème. Il faut généralement

prendre en compte l'impossibilité de calculer cette expression quand on réalise la phase d'inférence bayésienne (Parent et Bernier, 2007). Nous distinguons deux classes de méthodes d'inférence bayésienne : les méthodes de calcul analytique et les méthodes numériques. Les méthodes de calcul analytique englobent celles basées sur les distributions a priori dites conjuguées. Une famille de lois a priori, notée Hö est dite conjuguée si, pour toute loi a priori ðö E Hö, la loi a posteriori ðö|Y (ö|Y ) appartient également à Hö (Robert, 1992). Le passage des lois a priori aux lois a posteriori se réduit alors simplement à un changement de paramètres (Robert, 1992). L'emploi des méthodes analytiques ne peut être envisagé que dans des cas particuliers. Or en pratique, pour réaliser l'inférence bayésienne des modèles à plusieurs paramètres, donc plus complexes, la loi a priori est généralement de structure quelconque et donc la commodité que représente le calcul des lois conjuguées naturelles ne peut pas être exploitée (Parent et Bernier, 2007). Des méthodes numériques doivent donc être envisagées pour la réalisation effective de l'inférence bayésienne des modèles multiparamètriques plus complexes (Parent et Bernier, 2007). Parmi les méthodes numériques, nous pouvons citer les méthodes de Monte Carlo et les méthodes de Monte Carlo par Chaînes de Markov (MCMC pour Markov Chain Monte Carlo). Ces méthodes sont des méthodes algorithmiques qui sont maintenant largement utilisées pour évaluer les densités a posteriori ðö|Y (ö|Y ) des paramètres (Chib et Greenberg, 1995; Parent et Bernier, 2007).

3.1.1 Les méthodes de Monte Carlo

Les méthodes de Monte Carlo ont été développées à l'origine dans le domaine de la physique pour approcher des expressions de la forme

fEY (h(Y )) = h(Y )fY (Y )du(Y ) < 8, (3.2) oil fY est la densité de la variable aléatoire Y par rapport à la mesure u et h une fonction mesurable quelconque. La méthode de Monte carlo consiste à réaliser des simulations numériques de variables aléatoires pour obtenir une approximation d'intégrales qui converge avec le nombre de simulations. Ceci est justifié par la loi forte des grands nombres (Marin et Robert, 2007). Nous avons d'après la loi forte des grands nombres,

En outre, si EY (h(Y )²) < 8, par l'emploi du théorème central-limite, nous avons un résultat de convergence asymptotique

vn (¹ⁿ Elⁱ h(Yi) - EY (h(Y )))

p.s

-? N(0, 1)

VY (h(Y ))

et nous pouvons construire un intervalle de confiance asymptotique pour EY (h(Y )). Néanmoins, il n'est pas toujours possible de simuler suivant la loi de Y , ðY . De plus, il peut s'avérer, comme c'est le cas pour la simulation d'événements rares, que la simulation suivant ðY n'est pas toujours optimale (Marin et Robert, 2007). Lorsque la simulation selon la loi ðY n'est pas possible et en notant que l'expression (3.2) peut aussi s'écrire d'une autre manière comme

h(Y )fY (Y ) g(Y )du(Y ), g(Y ) où g est la densité d'une autre loi de probabilité dont le support contient

celui de la loi associée à la densité fY . Ainsi, un échantillon simulé selon la densité g permet aussi d'approcher cette expression lorsque la fonction h(Y )fY (Y )/g(Y ) est employée (Marin et Robert, 2007). Cette autre méthode de Monte-Carlo est appelée méthode d'échantillonnage préférentiel ou pondéré¹ : elle consiste à simuler une suite Y1,. . . , Y_n suivant la loi de densité g et d'approcher EY (h(Y )) par

La loi g est appelée la loi d'importance et le rapport fY (Yi)/g(Yi) est le poids d'importance associé à la variable aléatoire Yi. D'après la loi forte des grands nombres

1
n

_Xn
i=1

h(Yi)^f(Yi)

g(Yi)

ps ? I (h(Y ) 9(Y))

_g(y) g(Y )du(Y ) = EY (h(Y ))

Modélisation spatiale hiérarchique bayésienne de l'apparentement génétique et de l'héritabilité en milieu naturel à l'aide de marqueurs moléculaires

Chapitre 3

Estimation des paramètres

génétiques en milieu naturel

3.1 L'inférence statistique bayésienne et les méthodes de Monte Carlo par Chaînes de Markov

3.1.1 Les méthodes de Monte Carlo