Memoire Online - Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

Ce chapitre traite de notre première m'ethode propos'ee qui consiste a` lin'eariser la performance des g'enotypes pr'edite par le modèle SarraH au voisinage d'un g'enotype de r'ef'erence. Une fois la lin'earisation effectu'ee, l'estimation des paramètres, du fait du nombre important de r'egresseurs dont nous disposions, s'est faite par r'egression Partial least squares. Nous commencerons alors par pr'esenter a` la section 1.1 cette technique de r'egression et terminerons ce chapitre en pr'esentant a` la section 1.2, la m'ethode d'estimation APLAT.

3.1 La regression Partial least squares

La r'egression PLS, Partial least squares est devenue aujourd'hui, une m'ethode très utilis'ee dans le cas des r'egressions sur donn'ees corr'el'ees. Aussi, est-elle une bonne alternative s'il y a plus de r'egresseurs que d'observations (Wold, Albano, Dunn, Esbensen, Hellberg, Johansson, Sjöström 1983; Tenenhaus, 2001).

Un petit nombre de variables appel'ees »facteurs» ou »variables latentes» sont construites l'une après l'autre de façon it'erative et permettent de remplacer l'espace initial des nombreux r'egresseurs par un espace de plus faible dimension. Ces facteurs deviennent les nouvelles variables explicatives dans un modèle de r'egression lin'eaire classique.

Les facteurs sont orthogonaux, et sont des combinaisons lin'eaires des variables explicatives initiales. A ce titre, ils renvoient aux composantes principales de la RCP, R'egression sur composantes principales. Mais alors que ces dernières ne sont calcul'ees qu'àpartir des variables explicatives (et donc sans r'ef'erence a` la variable a` expliquer), les facteurs de la r'egression PLS maximisent les corr'elations successives entre les r'egresseurs et la variable a`

expliquer, tout en maintenant la contrainte d'orthogonalit'e avec ceux d'ejàconstruits.

La r'egression PLS s'effectue selon le principe de l'algorithme NIPALS, Nonlinear estimation by iterative partial least squares d'evelopp'e par Herman Swold (1966) pour l'analyse en composantes principales. Cette r'egression s'inspire de l'approche PLS (Wold, 1975) pour l'estimation des modèles d''equation structurelles reliant plusieurs blocs de variables entre eux.

A pr'esent, pour d'ecrire cette m'ethode, nous nous plaçons dans le cadre du modèle lin'eaire classique. Le vecteur des observations Y de dimension n × 1 est suppos'e suivre le modèle suivant

o`u le vecteur â d'ordre p est le paramètre inconnu a` estimer, X la matrice de dimension n × p des variables explicatives, et le vecteur e un terme d'erreur al'eatoire.

Nous supposerons qu'il n'y a pas de données manquantes et qu'il n'y a qu'une seule variable a` expliquer pour une explication plus claire de la méthode. L'algorithme PLS calcule les variables latentes t1,··· ,th étape par étape. Ces variables latentes th = Xwh sont des combinaisons linéaires des X qui sont orthogonales entre elles et qui maximisent Cov(th, Y) sous la contrainte II wh 11= 1.

A l'étape 1, w1 = (w1 1 · · · w^p₁)^' est solution du problème d'optimisation

= w¹ 1Cov(X¹,Y) + ··· + w^p₁Cov(X^p,Y) - ë[(w¹ 1)² + · · · + (w^p₁)² - 1]

Les solutions a` ce problème d'optimisation sont obtenues en dérivant L(w1, ë) par rapport a` w¹1,··· , w^p₁, ë. Les p + 1 équations aux dérivées partielles ou équations normales s'écrivent

? ???????

???????

Cov(X¹,Y) - 2ëw1 1 = 0

...

Cov(Xp,Y) - 2ëw1 p = 0
(w¹₁)² + ···(w^p₁)² = 1

En remplacant dans la dernière équation de ce système les composantes de w1 tirées dans les p premières équations, nous obtenons

En reportant cette valeur de ë dans chacune des p premières équations nor-males, nous avons

Ainsi, la première composante t1 = w¹ 1X¹ + · · · + w^p₁Xp est construite. Puis, il est effectuéune régression simple de Y sur t1

S'il reste encore de l'information, il est construit une deuxième variable latente t2?t1. Cette deuxième variable latente est combinaison linéaire des colonnes de X1, résidu de la régression linéaire de X sur t1.

A l'étape 2, w2 = (w1 2 · · · w^p₂)^' est solution du problème d'optimisation

? ?

max Cov(X1w2, Y1) II w2 11= 1

La deuxième variable latente t2 construite, il est effectuéune régression linéaire multiple de Y sur t1 et t2

Cette proc'edure it'erative peut ainsi continuer en utilisant les r'esidus Y2, X2 des r'egressions de Y, X sur t1 et t2.

Le nombre de composantes t1,
·
·
· ,tH a` retenir avec H rang(X), peut être d'etermin'e a` l'aide de trois critères : l'ajustement de l''echantillon d'apprentissage (X, Y) par (^bX, ^bY), la pr'ediction sur un 'echantillon externe et la pr'ediction interne aux donn'ees d'apprentissage appel'ee validation crois'ee.

Cette m'ethode a fait l'objet d'un article publi'e aux Comptes rendus de l'acad'emie des sciences dont l'original se trouve en Annexe B.

Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

Chapitre 3

3.1 La regression Partial least squares