WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Modélisation spatiale hiérarchique bayésienne de l'apparentement génétique et de l'héritabilité en milieu naturel à  l'aide de marqueurs moléculaires


par Ciré Elimane SALL
Université Montpellier II - Doctorat 2009
  

précédent sommaire suivant

1.4 Prise en compte de l'information spatiale

L'une des hypothèses fortes du travail réside dans le fait que deux individus ont d'autant plus de chance d'avoir des allèles IBD qu'ils sont spatialement proches.

Nous proposons, dans la suite, un modèle hiérarchique bayésien pour l'apparentement en prenant en compte l'information spatiale. L'intérêt de la modélisation hiérarchique bayésienne est que cette approche permet de scinder un problème complexe en une certaine série de problèmes relativement plus simples à traiter (Wikle, 2003). Le principe de la modélisation hiérarchique est basé sur le simple fait que la loi jointe d'un certain nombre de variables aléatoires peut toujours être décomposée en un produit de lois conditionnelles (Wikle, 2003). Par exemple si on considère 3 variables aléatoires X, Y Z, la distribution jointe de ces variables est

ðX,Y,Z(X, Y, Z) = ðX|Y,Z(X|Y, Z)ðY |Z(Y |Z)ðZ(Z).

Cette formule constitue le noeud de la modélisation hiérarchique. La modélisation d'un processus complexe ayant une loi jointe qui est difficile à spécifier peut ainsi être faite avec un modèle hiérarchique comportant au moins trois niveaux de base (Wikle, 2003) :

1. niveau des données Y : ce niveau permet d'expliciter la loi des observations conditionnellement à un process latent et à un ensemble de paramètres ö1. Cela permet donc d'expliciter la vraisemblance;

2. niveau du processus ç : ce niveau permet de stipuler la loi du processus latent conditionnellement à un second ensemble de paramètres ö2

3. niveau des paramètres ö : ce niveau permet de décrire en terme de loi de probabilité, les connaissances a priori que l'on a des paramètres, ö1 et ö2, définis dans les deux premiers niveaux .

Dans le cadre Bayésien, nous nous intéressons à la distribution jointe a posteriori du processus latent et des paramètres sachant les données. D'après le théorème de Bayes :

ðç,ö1,ö2|Y (ç, ö1, ö2|Y ) ? ðY |ç,ö1(Y |ç, ö1)ðç|ö2(ç|ö2)ðö1,ö2(ö1,ö2)

1.4.1 Version hiérarchique bayésienne du modèle de Milligan

Le modèle de Milligan peut être décrit de manière hiérarchique bayésienne.

Definition 4 Soit IBS = (IBS1, . . . , IBSL) le vecteur aléatoire du mode d'IBS pour L Locus indépendants. Soit IBD = (IBD1, . . . , IBDL), le vecteur aléatoire latent du mode d'IBD pour les L loci. Le modèle hiérarchique bayésien de l'apparentement est donné par les équations suivantes :

- niveau des données

ðIBS|IBD(IBS|IBD) = 11L ðIBSl|IBDl(IBSl|IBDl) (1.7)

l=1

ðIBSl|IBDl(IBSl|IBDl) désigne une loi multinomiale M (1; pl 1,. . . ,pl9), pli sont les probabilités d'IBS sachant le mode d'IBD au locus l donnés dans le tableau 1.1. Ce premier niveau décrit l'indépendance conditionnelle des modes d'IBS sachant les modes d'IBD.

- niveau du processus

ðIBD|Ä(IBD|A) = 11L ðIBDl|Ä(IBDl|A) (1.8)

l=1

ðIBDl|Ä(IBDl|A) est une loi multinomial M (1, A1, . . . , A9). Ce deuxième niveau reflète l'indépendance entre locus.

- niveau des paramètres

ðÄ(A) = D (u1, . . . , u9) (1.9)

où D est une loi de dirichlet et les u = u1, . . . , u9 sont donnés.

Dans l'approche bayésienne, un vecteur latente, mode d'IBD, IBD = (IBD1,...,IBDL), est introduit et dépend du locus.

La généralisation que nous proposons va consister à modéliser différemment, le vecteur latent du mode d'IBD.

Hypothèses Nous supposons que les individus de la population ne sont pas consanguins, c'est à dire que leurs parents ne sont pas apparentés. Ainsi, les modes d'IBD possibles des allèles de 2 individus sont réduits uniquement aux 3 cas suivants :

- les individus n'ont aucun allèle IBD, ils sont IBD9 ; c'est le cas s'ils n'ont par exemple aucun parent en commun

les individus ont 1 allèle IBD, ils sont IBD8 ; ceci n'est possible que s'ils ont au moins un parent en commun (même père ou même mère)

- les individus ont 2 allèles IBD, ils sont IBD7 ; ceci n'est possible que lorsqu'ils ont deux parents en commun

Ce qui est important avec cette hypothèse, c'est qu'un couple de génotypes donné ne présente donc qu'une seule possibilité d'avoir aucun allèle, un allèle ou deux allèles identiques par descendance (cf Figure 3). Cette hypothèse nous permet de définir une structure d'ordre qui est relative à la similarité

des allèles d'un couple d'individus. Avec l'hypothèse que la similarité allélique de deux individus est ordonnée et si nous supposons que le mode d'IBD suit une loi multinomiale, nous proposons de modéliser le mode d'IBD avec un GLM probit ordinal, décrit en terme de variable latente gaussienne (voir (McCullagh et Nelder, 1989, Chapitre 5)).

Modèle spatial hiérarchique bayésien Nous proposons un premier modèle spatial hiérarchique. Nous ne présentons pas ici la loi a priori des paramètres, uniquement les deux premiers niveaux de la modélisation hiérarchique :

- niveau des données

ðIBS|IBD(IBS|IBD) =

YC
c=1

YL
l=1

ðIBS|IBD(IBSl c|IBDl c)

oil ðIBSlc|IBDlc(IBSl c|IBDl c) est une loi multinomiale M(1,pl 1,pl 2, . . . ,pl 9) avec les pl i, i = 1, . . . , 9 des fonctions polynômiales des fréquences alléliques au locus l = 1, .. . , L donné au Tableau 1.1. Ce premier niveau décrit l'indépendance conditionnelle des modes d'IBS entre individus et entre locus sachant les modes d'IBD.

niveau du processus

P (IBDl i,c|ak-1, ak,ç~ = P (Zl c ?]ak-1, ak]|ç) , i = 7,8,9 ðZlc|ç(Zl c|ç) = N [hç(dc),1]

oil les ak sont des seuils tels que ak-1 < ak et soient égaux à -8, 0, a ou +8}. Comme la variable IBD est ordinale à trois modalités, seul un seuil, nommé aussi a, est inconnu.

Une première approche consiste à modéliser hç(dc) comme une fonction linéaire de la distance,

hç(dc) = ii + udc

avec ç = (ii, u) un vecteur de paramètres inconnus. Le problème posé par ce modèle est que comme la distance spatiale est la seule variable explicative dans l'expression de la moyenne de la variable latente et donc la seule variable permettant de distinguer les couples entre eux, nous risquons de la conserver dans le modèle même si en réalité elle n'est pas significativement discriminante. Nous proposons une autre approche de modélisation qui consiste à introduire une couche supplémentaire dans le modèle hiérarchique bayésien. Cette couche correspond à un effet du couple considéré et cet effet dépend de la distance entre les individus constituant le couple. Le modèle spatial hiérarchique bayésien pour l'apparentement est donné par la définition suivante.

Définition 5 (Modèle spatial hiérarchique pour l'apparentement) Soient (g1, . . . , gn), le génotype de n individus issus d'une population non con-sanguine

et observés sur L locus indépendants. Soit c = 1, ...,C les C couples associés aux n individus. Soient I BDc = (I BDc1, . . . , I BDcL) le vecteur aléatoire des modes d'IBD du couple c au L oùIBDlc est une variable aléatoire ordinale à trois modalités. On note IBD le vecteur des modes d'IBD pour tous les couples à tous les loci. Soient IBSc = (IBS1 c,. . . , I BSS) le vecteur des modes d'IBD du couple c aux différents locus L et IBS le vecteur des modes d'IBS pour tous les couples à tous les loci. Soit d = (d1, . . . , dC) le vecteur des distances géographiques observées entre les couples. Le modèle spatial hiérarchique bayésien de l'apparentement est donnés par les équations (1.10), (1.11), (1.12) et (1.13)

ðIBS|IBD(IBS|IBD) = 11C 11L ðIBSl|IBDl(IBSlc|IBDlc) (1.10)

c=1 l=1

ðIBSl|IBDl(IBSlc|IBDlc) est une loi multinomial M(1,pl 1,pl 2,. . . ,pl9) avec les pli, i = 1, . . . , 9 sont des fonctions polynômiales des fréquences alléliques au locus l = 1, . . . , L qui sont donnés au Tableau 1.1. Ce premier niveau décrit l'indépendance conditionnelle des modes d'IBS entre individus et entre locus sachant les modes d'IBD des couple d'individus à tous les locus. De plus, Il existe un vecteur Z aléatoire latent gaussien, de longeur L × C, tel que

P (IBDL|ák-1, ák, çc) = P (Zlc ?] ák-1, ák] |çc) , i = 7, 8, 9 (1.11)

avec

ðZlcc(Zlc|çc) = N (çc, 1) (1.12)

et où les ák sont des seuils tels que ák-1 < ák et soient égaux à -8, 0, á ou +8}. Comme la variable IBD est ordinale à trois modalités, seul un seuil, nommé aussi á, est inconnu.

ð(çc|u,í, ó2ç) = N(u + ídc, ó2ç) (1.13)

où ç = (u, í, ó2ç) est un vecteur de paramètres inconnus.

En particulier

e--(z-71.)2dz, P(/BA,c177c) --

P(I BDl9,c|çc) = c)2dz

et P(IBD,l7 = 1 e-v12ð f0 8

,c c .0.71- f á (z-çc)2dz. v12 /r0 e--

(z-71 1

précédent sommaire suivant