WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

( Télécharger le fichier original )
par Ibnou DIENG
Universite Montpellier II - Doctorat 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 3

La methode APLAT

Ce chapitre traite de notre première m'ethode propos'ee qui consiste a` lin'eariser la performance des g'enotypes pr'edite par le modèle SarraH au voisinage d'un g'enotype de r'ef'erence. Une fois la lin'earisation effectu'ee, l'estimation des paramètres, du fait du nombre important de r'egresseurs dont nous disposions, s'est faite par r'egression Partial least squares. Nous commencerons alors par pr'esenter a` la section 1.1 cette technique de r'egression et terminerons ce chapitre en pr'esentant a` la section 1.2, la m'ethode d'estimation APLAT.

3.1 La regression Partial least squares

La r'egression PLS, Partial least squares est devenue aujourd'hui, une m'ethode très utilis'ee dans le cas des r'egressions sur donn'ees corr'el'ees. Aussi, est-elle une bonne alternative s'il y a plus de r'egresseurs que d'observations (Wold, Albano, Dunn, Esbensen, Hellberg, Johansson, Sjöström 1983; Tenenhaus, 2001).

Un petit nombre de variables appel'ees »facteurs» ou »variables latentes» sont construites l'une après l'autre de façon it'erative et permettent de remplacer l'espace initial des nombreux r'egresseurs par un espace de plus faible dimension. Ces facteurs deviennent les nouvelles variables explicatives dans un modèle de r'egression lin'eaire classique.

Les facteurs sont orthogonaux, et sont des combinaisons lin'eaires des variables explicatives initiales. A ce titre, ils renvoient aux composantes principales de la RCP, R'egression sur composantes principales. Mais alors que ces dernières ne sont calcul'ees qu'àpartir des variables explicatives (et donc sans r'ef'erence a` la variable a` expliquer), les facteurs de la r'egression PLS maximisent les corr'elations successives entre les r'egresseurs et la variable a`

expliquer, tout en maintenant la contrainte d'orthogonalit'e avec ceux d'ejàconstruits.

La r'egression PLS s'effectue selon le principe de l'algorithme NIPALS, Nonlinear estimation by iterative partial least squares d'evelopp'e par Herman Swold (1966) pour l'analyse en composantes principales. Cette r'egression s'inspire de l'approche PLS (Wold, 1975) pour l'estimation des modèles d''equation structurelles reliant plusieurs blocs de variables entre eux.

A pr'esent, pour d'ecrire cette m'ethode, nous nous plaçons dans le cadre du modèle lin'eaire classique. Le vecteur des observations Y de dimension n × 1 est suppos'e suivre le modèle suivant

Y = Xâ + e (3.1)

o`u le vecteur â d'ordre p est le paramètre inconnu a` estimer, X la matrice de dimension n × p des variables explicatives, et le vecteur e un terme d'erreur al'eatoire.

Nous supposerons qu'il n'y a pas de données manquantes et qu'il n'y a qu'une seule variable a` expliquer pour une explication plus claire de la méthode. L'algorithme PLS calcule les variables latentes t1,··· ,th étape par étape. Ces variables latentes th = Xwh sont des combinaisons linéaires des X qui sont orthogonales entre elles et qui maximisent Cov(th, Y) sous la contrainte II wh 11= 1.

A l'étape 1, w1 = (w1 1 · · · wp1)' est solution du problème d'optimisation

? ?

?

max Cov(Xw1, Y) k w1 11= 1

Pour déterminer w1, il suffit d'écrire l'expression du Lagrangien.

L(w1,ë) = Cov(Xw1,Y) - ë(w' 1w1 - 1)

= w1 1Cov(X1,Y) + ··· + wp 1Cov(Xp,Y) - ë[(w1 1)2 + · · · + (wp 1)2 - 1]

o`u ë est le multiplicateur de Lagrange associéa` la contrainte.

Les solutions a` ce problème d'optimisation sont obtenues en dérivant L(w1, ë) par rapport a` w11,··· , wp 1, ë. Les p + 1 équations aux dérivées partielles ou équations normales s'écrivent

? ???????

???????

Cov(X1,Y) - 2ëw1 1 = 0

...

Cov(Xp,Y) - 2ëw1 p = 0
(w
11)2 + ···(wp 1)2 = 1

o`u Xp est la pecolonne de X

En remplacant dans la dernière équation de ce système les composantes de w1 tirées dans les p premières équations, nous obtenons

[Cov(X1,Y)/2ë]2 + · · · + [Cov(Xp,Y)/2ë]2= 1

D'o`u

X p

j=1

[Cov(Xj,Y)]2 = 4ë2

Et

ë = /P[Cov(Xj,Y)]2/2

En reportant cette valeur de ë dans chacune des p premières équations nor-males, nous avons

wj 1 = Cov(Xj,Y)/V/P[Cov(Xj,Y)]2

Ainsi, la première composante t1 = w1 1X1 + · · · + wp 1Xp est construite. Puis, il est effectuéune régression simple de Y sur t1

Y = c1t1 + Y1

o`u c1 est le coefficient de régression et Y1 le vecteur des résidus.

S'il reste encore de l'information, il est construit une deuxième variable latente t2?t1. Cette deuxième variable latente est combinaison linéaire des colonnes de X1, résidu de la régression linéaire de X sur t1.

A l'étape 2, w2 = (w1 2 · · · wp 2)' est solution du problème d'optimisation

? ?

?

max Cov(X1w2, Y1) II w2 11= 1

La deuxième variable latente t2 construite, il est effectuéune régression linéaire multiple de Y sur t1 et t2

Y = c1t1 + c2t2 + Y2

Cette proc'edure it'erative peut ainsi continuer en utilisant les r'esidus Y2, X2 des r'egressions de Y, X sur t1 et t2.

Le nombre de composantes t1,
·
·
· ,tH
a` retenir avec H rang(X), peut être d'etermin'e a` l'aide de trois critères : l'ajustement de l''echantillon d'apprentissage (X, Y) par (bX, bY), la pr'ediction sur un 'echantillon externe et la pr'ediction interne aux donn'ees d'apprentissage appel'ee validation crois'ee.

3.2 La méthode APLAT : linéarisation au-tour d'un témoin

Cette m'ethode a fait l'objet d'un article publi'e aux Comptes rendus de l'acad'emie des sciences dont l'original se trouve en Annexe B.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'ignorant affirme, le savant doute, le sage réfléchit"   Aristote