WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

SOMMAIRE

Introduction GénéraleFFFFFFFFFFFFFFFFFFFFFFFFFF.. 8

Partie 1 : Présentation de la régression PLS

I. Contexte historiqueFFFFFFFFFFFFF.FFFFFFFFFF... 13

II. Qu'est-ce que la régression PLS 7 FFFFFFFFFFFFFFFFFF. 13

III. Principes d'une régression linéaireFFFFF...FFFFFFFFFFFF 14

IV. Les avantages de la régression PLS 15

V. Le principe de la régression PLS univariéeFFFFFFFFFFFF.FF 16

VI. Les étapes de calcul de la régression PLS1 19

VII. Indépendance des composantesFFFFFFFFFFFFFFFFFFF. 24

VIII. Centrage et réduction des donnéesFFFFFFFFFFFFFF.FFF 26

IX. Le critère de validation croisée FFFFFFFFFFFFFFFFFF 28

X. Les critères liés à la covariance composante - variable expliquéeFFFFF 32

Partie 2 : Utilisation de la régression PLS sur des cas limites

I. Régression PLS avec une seule variable explicativeFFFFFFFFFFF. 35

II. Un exemple à trois variables explicativesFFFFFFFFFFFFFF.F 38

III. La régression linéaire et le critère des moindres carrésFFFFFFF...FF 48

IV. La régression PLS comme généralisation des MCOFFFFFFFFFFF 48

V. Le critère de la régression PLSFFFFFFFFFFFFFFFFFFF 53

Partie 3 : Simulations

I. Test n°1FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 64

II. Test n°2FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 82

III. Test n°3FFFFFFFFFFFFFFFFFFFFFFFF.FFFF 102

IV. Conclusions sur les simulations réalisées 119

Conclusion généraleFFFFFFFFFFFFFFFFFFFFFFFFFF. 121

Bibliographie 124

Table des matières 125

AnnexesFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF. 127

PARTIE 1

Présentation de la régression

PLS

I. Contexte historique1

La régression PLS (Partial Least Squares regression) est une technique d'analyse et de prédiction relativement récente. Elle a été conçue pour faire face aux problèmes résultants de l'insuffisance de l'utilisation de la régression linéaire classique, qui trouve ses limites dès lors que l'on cherche à modéliser des relations entre des variables pour lesquelles il y a peu d'individus, ou beaucoup de variables explicatives en comparaison au nombre d'individus (le nombre de variables explicatives pouvant excéder très largement le nombre d'individus), ou encore lorsque les variables explicatives sont fortement corrélées entre elles.

La méthode PLS répond précisément à ses problèmes. Cette méthode fut proposée par Wold S., Albano C., Dunn III W.J., Esbensen K., Hellberg S., Johansson E. et Sjôstrôm M. en 1983, et connu de grands succès dans le domaine de la chimie, où, souvent, les données répondent à ce type de propriétés. La méthode PLS fut principalement développée autour de Svante Wold, qui a dirigé de nombreuses thèses portant sur le sujet. De plus, ce dernier, associé à Nouna Kettaneh-Wold et à plusieurs collaborateurs, ont développé le logiciel d'analyse des données SIMCA-P, logiciel centré sur la régression PLS.

En France, Michel Tenenhaus s'est beaucoup intéressé à cette méthode et a réalisé de nombreux travaux à ce sujet. Son ouvrage « La régression PLS -- Théorie et Pratique » (2002, éditions TECHNIP) a énormément contribué à la réalisation de ce mémoire, notamment dans la partie théorique de ce dernier.

Par ailleurs, Tenenhaus M. pense que la régression PLS pourrait connaître les mêmes succès qu'en chimie si elle était utilisée dans d'autres domaines.

Voyons à présent en quoi consiste cette méthode.

II. Qu'est-ce que la régression PLS ?

La régression PLS est une méthode statistique permettant d'identifier des relations entre plusieurs variables. Il y a toujours, d'une part, les variables explicatives (notées généralement x1, ..., xp), et les variables expliquées (notées généralement y1, ..., yq). Ces variables sont, dans une régression PLS, toutes étudiées sur les mêmes « individus ». On distingue la régression PLS univariée, ou « régression PLS1 », de la régression PLS multivariée, appelée également « régression PLS2 ». Dans le premier cas, la régression ne porte que sur une seule variable expliquée. Dans le second, il peut y avoir plusieurs variables expliquées (et, même si l'algorithme de la régression PLS multivariée est présenté différemment de celui de la version simple, il constitue une généralisation de

1 D'après Tenenhaus M. (2002). La Régression PLS-- Théorie et Pratique, Editions TECHNIP

ce dernier dans la mesure où les résultats sont équivalents lorsque la régression PLS multivariée ne porte que sur une seule variable expliquée).

La régression PLS s'inscrit dans la catégorie des régressions linéaires. Il convient donc, avant de rentrer dans le coeur du sujet, de comprendre ce qu'est une régression linéaire.

III. Principes d'une régression linéaire

Le but de la régression est donc d'expliquer les valeurs et les variations d'une ou plusieurs variables expliquées (les « y ») par les valeurs et les variations d'une ou plusieurs variables explicatives (les « x »). Par exemple, on peut chercher à expliquer le poids d'un individu (variable expliquée) par sa taille (variable explicative). Dans ce cas, on a une régression PLS univariée avec une seule variable explicative. Naturellement, il paraît difficile d'admettre, dans la pratique, que le poids d'un individu puisse être seulement expliqué par sa taille. En effet, plusieurs individus de même taille peuvent avoir un poids différent, et, plus généralement, on peut dire que le poids des individus n'est pas strictement fonction de leur taille. Cela ne veut pourtant pas dire que la taille d'un individu ne peut pas constituer un facteur explicatif de son poids. Il s'agit donc d'une « variable explicative » potentielle parmi d'autres. On peut affiner l'analyse en ajoutant, dans la liste des variables explicatives, le montant du budget de cet individu consacré à l'alimentation. Cela devrait donc nous permettre, en partie, de comprendre pourquoi deux individus de même taille peuvent avoir un poids différent (la seconde variable explicative, c'est-à-dire la part de budget consacrée à l'alimentation, pouvant d'expliquer certaines divergences). Evidemment, cela ne suffira pas à expliquer entièrement les écarts que l'on peut observer d'un individu à l'autre. Il est bien entendu possible de trouver des variables supplémentaires susceptibles d'expliquer mieux encore les variations de la variable « poids » d'un individu à l'autre. Mais le fait d'intégrer de plus en plus de variables rend l'analyse plus compliquée et les résultats plus difficiles à interpréter. En fait, on attend de l'analyse qu'elle nous renseigne à la fois sur l'importance des différentes variables « explicatives », et sur le bienfondé de l'intégration de chaque variable dans l'analyse.

Il est important de signaler que l'analyse ne doit jamais porter sur un seul individu. En effet, ce qu'on attend de la régression, c'est qu'elle nous fournisse les coefficients (associés à chaque variable explicative) les plus pertinents possibles. On cherche (lorsque la régression se limite à une seule variable expliquée) une fonction linéaire permettant d'estimer une valeur de « y » en fonction de chaque valeurs prises par les x1, ...,xp. Cela passe donc par la recherche de coefficients, de sorte à trouver une fonction du type y = a*x1 + b*x2 +... Si la régression porte sur un seul individu, les coefficients seront infiniment instables dès lors qu'il y a plus d'une variable explicative. En effet, si on prend le cas d'un individu de 80 kg, mesurant 180 cm et consacrant 1.000 € chaque année à l'alimentation, il existe une infinité de combinaisons permettant de retranscrire cette relation. Par exemple, on pourrait dire que le poids en kg de cet individu est égal à

0,444 fois sa taille en centimètres, ou bien à 0,08 fois son budget alimentation en euros, ou encore à 0,222 fois sa taille en centimètres auxquels on additionne 0,04 fois son budget alimentation en euros. Cela nous donnerait une infinité de modèles impossibles à départager. Et, plus important encore, ce modèle ne serait probablement pas pertinent s'agissant d'un autre individu. Il faut donc, de préférence, un nombre d'individus assez conséquent, de sorte à avoir une régression plus pertinente, susceptible de correspondre à n'importe quel individu, avec une marge d'erreur dont on peut se faire une idée raisonnable. Naturellement, le fait d'intégrer toujours plus d'individus à l'analyse ne supprimera pas la marge d'erreur. Mais cela permettra d'avoir les coefficients les plus précis possibles, et d'avoir une idée précise de la marge d'erreur (qu'on peut estimer, par exemple, à l'aide du coefficient de corrélation).

En fait, le but premier de la régression n'est pas de s'intéresser à un individu particulier, mais à un individu « abstrait », pour lequel les relations entre les variables sont des relations valables « en moyenne », peu importe les valeurs prises par les variables explicatives. Lorsqu'on a estimé les coefficients de la régression, on attend que celle-ci nous donne un modèle qui, pour chaque valeurs que peuvent prendre les différentes variables explicatives, renvoi une valeur de la variable expliquée qui, en moyenne, doit correspondre à la réalité, avec la marge d'erreur la plus faible possible.

Ceci est donc l'objet de la régression PLS. Mais c'est aussi celui de la régression linéaire simple ou multiple (avec, dans ce cas, toujours une seule variable expliquée « y »). Cette régression linéaire à un objectif simple : trouver les coefficients, pour chaque variable explicative, qui minimisent les écarts, pour la variable expliquée, entre les valeurs estimées par le modèle, et les valeurs observées dans la pratique, pour l'échantillon donné sur lequel est effectué la régression. Il s'agit de minimiser la somme des résidus (mis au carré, dans le simple but d'éviter la compensation systématique des erreurs positives et négatives), ou, dit autrement, de maximiser le coefficient de corrélation (ce qui est un objectif propre à la régression linéaire, qui ne s'applique pas forcément à la régression PLS, du moins pas dans toutes ses étapes).

Voyons à présent quel est l'intérêt de la régression PLS par rapport aux autres modèles linéaires.

IV. Les avantages de la régression PLS

Etant donné que la régression linéaire permet de traiter le type de problème que nous avons précédemment abordé, pourquoi donc chercher à utiliser la régression PLS ? Qu'est-ce qu'elle apporte de plus que la régression linéaire ?

Partie 1: Présentation de la régression PLS En fait, les avantages de la régression PLS sont nombreux :

- Tout d'abord, dans le cas régression PLS multivariée (régression PLS2), il peut y avoir plusieurs variables expliquées. Nous n'évoquerons malheureusement pas ce cas.

- Dans le cas où une des variables explicatives serait une stricte combinaison linéaire des autres, la régression linéaire ne peut avoir lieu sans enlever au moins une variable explicative de l'analyse. La régression PLS ne présente pas cet inconvénient.

- La régression PLS peut traiter des cas où les individus seraient moins nombreux que les variables explicatives. La régression linéaire ne peut le faire.

- La régression PLS, étant basée sur l'algorithme NIPALS, permet de travailler sur des échantillons même si certaines données manquent pour certains individus pour certaines variables, et ce sans même à avoir à estimer au préalable les données en question. Néanmoins, nous nous limiterons dans ce mémoire aux formules de la régression sans données manquantes, car elles sont plus faciles à interpréter.

- Lorsque les variables explicatives sont fortement corrélées entre-elles, la régression linéaire devient très peu pertinente, au sens où les coefficients qui en ressortent deviennent très instable lorsque l'on « bruite » les données (on fait varier, de manière aléatoire et très légère, les données de l'échantillon). La régression PLS, basée sur des critères de covariance, est considérée comme étant plus robuste. Les coefficients demeurent stables et gardent une certaine significativité, même en présence de corrélations fortes entres les variables.

Voyons donc comment fonctionne cette méthode qui semble si avantageuse.

V. Le principe de la régression PLS univariée

Le principe de la régression PLS est assez simple, bien que se déroulant en un nombre d'étapes à priori non défini (se construisant toutes de la même manière, à partir des résidus des précédentes étapes).

On a d'une part une variable qu'on cherche à expliquer « y », et d'autre part des variables explicatives « x1, x2, ..., xp ». Les valeurs de ces variables (les yi, x1i, x2i, ..., xpi) sont observées sur « n » individus.

Remarque : Les données associées aux variables y, x1, x2, ..., xp seront centrées et réduites, ce qui est obligatoire et indispensable dans le cadre de la régression PLS. Les coefficients de corrélation entre ces variables seront donc égaux à leur covariance. Pour centrer les données, on soustrait à chaque donnée de la série la moyenne de la série. Pour les réduites, on divise chaque donnée de la série par l'écart type de cette dernière. Au final, on a donc une moyenne nulle pour chaque série, et un écart-type égal à 1 (et donc une variance elle aussi égale à 1). Nous reviendrons plus tard sur le centrage et la réduction des données, qui sont des étapes assez simples, n'altérant pas la structure de variance des différentes données.

La régression va consister à chercher des composantes ti, t2, ..., s'exprimant en fonction des variables explicatives xi, x2, ..., xp, en trouvant une série de coefficients (pour chaque composante : un coefficient associé directement ou indirectement à chaque variable) pour chaque composante, à la manière d'une régression linéaire, à la différence près que les coefficients sont calculés sur base d'un critère de covariance.

On procède par étape. D'abord, on défini ti en cherchant des coefficients w11, wi2, ..., wip pour chaque variable explicative. On obtient donc une équation du type : t1 = wMM*xM +w12*x2 + ... + w1p*xp.

Ensuite, on effectue une régression linéaire de ti sur y. Ainsi, on peut exprimer y en fonction de ti, à l'aide d'un coefficient ci (9- = ci*ti)2. En fait, cela permet tout d'abord d'obtenir de manière rapide un coefficient de corrélation, afin d'estimer la qualité de la régression à l'étape 1. Ensuite, cela permet d'exprimer directement y en fonction de xi, x2, ..., xp, en « transformant » les coefficients wMM, wM2, ..., wip, en les multipliant par une constante, afin de réorienter la régression sur l'échelle de la variable y.

A l'étape 1, l'équation sera donc la suivante : 9-= cM*wMM*xM + ci*wi2*x2 + ... + cl*w1p*xp. (1)

On a donc une régression s'exprimant de manière similaire à une régression simple, mais avec un critère de covariance. On connaît la qualité de la régression grâce au coefficient de corrélation de ti avec y.

Néanmoins, si la qualité de la régression n'est pas satisfaisante, on peut l'améliorer en ajoutant des composantes supplémentaires.

Dans la deuxième étape, on va s'intéresser à la fraction de variance des variables qui échappe à la première étape de la régression, c'est-à-dire les résidus. On va donc effectuer les régressions des variables y, xi, x2, ..., xp sur ti et obtenir des séries statistiques correspondant aux résidus de ces séries de base, séries que nous nommerons respectivement yi, xii, xM2, ..., xlp.

Ensuite, la même méthode qu'à l'étape 1 sera appliquée pour déterminer une composante t2, mais cette fois à partir des séries y1, x11, x12, ..., xlp. On obtient alors des coefficients w2i, w22, ..., w2p qui permettent d'exprimer t2 en fonction de xMM, xM2, ..., xip. Nous verrons qu'il est possible, à partir de là, et des régressions des variables explicatives sur ti, d'exprimer directement t2 en fonction des variables initiales

2 Pour chaque modèle, 9- est la notation employée pour désigner l'estimation de la variable y par le modèle en question. Pour obtenir la valeur de y correspondante (dans le cas d'un individu connu), il suffit d'ajouter à 9- les résidus de la régression du modèle en question.

centrées-réduites (plutôt qu'en fonction de leurs résidus, ce qui facilite le calcul et l'interprétation), avec des coefficients recalculés.

Ensuite, on effectue une régression linéaire multiple de y sur ti et t2. Comme c'est une régression linéaire, la qualité de la régression ne peut qu'en être améliorée (du moins au niveau du coefficient de corrélation).

On obtient alors l'équation suivante : y = ci*ti + c2*t2. Nous verrons par la suite pourquoi le coefficient ci n'est pas modifié par rapport à la régression de la première étape.

Si on détaille cette équation, obtient :

y = ci*Wii*xi + ... + cl*W1p*xp + c2*W21*x11 + ... + c2*W2p*xlp (2)

Nous verrons qu'il est possible de simplifier cette équation de sorte à exprimer directement y en fonction des variables explicatives initiales, c'est-à-dire en éliminant les séries correspondant aux résidus des régressions des variables initiales sur ti. Une telle simplification sera possible à chaque étape, de sorte à conserver, à chaque étape, un modèle linéaire s'exprimant directement en fonction des variables initiales.

Cette équation, à l'étape 2, paraît déjà fort complexe sous forme de formule. Néanmoins, dans le cas d'un exemple concret, elle est écrite de manière tout à fait similaire à une régression linéaire multiple (lorsque les coefficients sont connus numériquement). Seuls les coefficients affectés à chaque variable varient.

Naturellement, on peut encore ajouter des étapes supplémentaires pour affiner la qualité de la régression, selon le même principe. Cela ne compliquera pas vraiment l'étude du modèle définitif car il sera toujours aussi facile à analyser (un seul coefficient définitif pour chaque variable explicative, même si ce coefficient s'obtient par un calcul de plus en plus long au fur et à mesure que l'on ajoute des étapes).

Notons qu'il est possible de retenir un certain nombre d'étapes en fonction de critères objectifs quant à la significative de chaque étape. Nous nous intéresserons par la suite à quelques critères permettant de déterminer, plus ou moins objectivement, le nombre d'étapes à retenir.

Il est maintenant temps de passer aux étapes de calcul à proprement parler.

VI. Les étapes de calcul de la régression PLS1

Comme expliqué précédemment, nous nous contenterons des formules de la régression PLS sans données manquantes, afin d'éviter de compliquer l'interprétation de ces dernières. Néanmoins, il est bon de savoir que, en cas de régression PLS avec données manquantes, les formules changent, même si elles sont équivalentes à celle de la régression PLS sans donnée manquantes lorsqu'il ne manque aucune donnée.

Dans un premier temps, il s'agit de trouver une composante qu'on nommera t1, qui, à l'instar de la variable expliquée dans la régression linéaire, sera exprimée en fonction des variables explicatives à l'aide de coefficients qui seront calculés au cours de cette étape. « y » sera par la suite exprimé directement en fonction de cette composante « t1 ».

Ces coefficients, notés w1j (dans le cas de celui associé à la « jème variable explicative », le « 1 » étant associé à la première composante « t1 ») vont être déterminés selon un critère de covariance, et leur méthode de calcul est très simple et facilement interprétable, surtout en l'absence de données manquantes.

La formule, pour le jème coefficient, est la suivante :

Y

~

Cov(x ~

~ ~

~

(3)

~

Y

~

 

p ~

~

Cov2(x ~ ~

19

(Naturellement, il ne faut pas confondre le « j » de la somme des « covariances-carré » de tous les « xj » avec y, avec le « j » présent dans le terme « w1j » et au dénominateur de l'expression du membre de droite, qui signifie que l'on s'intéresse uniquement au cas de lajème variable)

Ce sont donc les covariances, pondérées par la racine de la somme de leurs carrés, qui vont déterminer les coefficients de la composante « t1 », et donc indirectement la relation entre les variables explicatives et « y ». Le fait que la pondération s'effectue par rapport à des covariances dont les valeurs sont mises au carré indique qu'on souhaite éviter la neutralisation des covariances positives et négatives, et qu'on veut pondérer chaque covariance par l'importance totale de toutes les covariances entre les variables explicatives et « y ».

Le fait que la covariance d'une variable explicative avec la variable « y » détermine directement le coefficient qui sera affecté à cette variable dans le modèle explicatif de la variable « y », signifie que quoi qu'il arrive, plus cette covariance sera élevée, et plus le coefficient sera important, et ce quelque soient les corrélations relatives des différentes variables explicatives. On a donc ici une première idée de la « robustesse » de la régression PLS.

20

Une fois les coefficients wMj obtenus, il devient très facile d'obtenir la composante ti :

p

t1 1 ixi ~(4)

i 1

Dit autrement :

tl = wMM*xM + w12*x2 + ... + wip*xp (5)

Ensuite, on effectue une régression simple de y sur ti, et on obtient donc :

."= cM*tM (6)

." correspondant à la série des estimations des valeurs dey selon cette régression.

Et donc y = ci*ti + yi (7)

yi correspondant naturellement à la série des résidus de cette régression simple.

On peut donc exprimer y directement en fonction des variables explicatives xi, ..., xp. ."= cl*w11*x1 + cl*w12*x2 + ... + cl*w1p*xp (8)

Il s'agit là d'une manière de réajuster les coefficients wMj à l'échelle de y, en les multipliant par la constante ci.

Les « p » coefficients wij*ci nous donnent des indications claires sur l'importance de la prise en compte de chaque variable sur la régression. En outre, ces coefficients seront du même signe que les coefficients de corrélation et que les covariances des variables auxquelles ils sont associés avec y. Ils seront d'ailleurs directement proportionnels aux covariances. Il n'en va pas de même dans une régression linéaire multiple. Il en résulte une interprétation des coefficients beaucoup plus simple.

Cette régression simple, de y sur ti, nous permet d'obtenir un coefficient de corrélation, qui nous permet d'apprécier la qualité de la régression à l'étape 1, ainsi qu'une série de résidus yl, qui s'obtient en calculant la différence suivante :

y1 = y -- cM*ti (9)

Si on estime la qualité de la régression insuffisante, on peut passer à l'étape 2, qui se déroule de manière comparable à l'étape 1, mais qui porte non plus sur les variables initiales (centrées-réduites) y, xi, ..., xp mais sur les résidus de leur régression simple sur ti, qu'on appellera donc yi, xMM, ..., xip. Ces nouvelles séries, créées en effectuant autant de régression simples que de variables, sont donc indépendantes de la première composante ti. Le pouvoir explicatif de la composante t2, qui sera créée sur base de ces

variables, sera donc complètement nouveau et pourra donc venir s'additionner à celui de la composante ti.

A l'étape 2, nous allons obtenir une série de coefficients W2; (W2i, W2p), qui nous

permettront d'exprimer t2 en fonction des variables xMM, F, xip, résidus des régressions des variables y, xi, F, xp sur ti.

La formule de ces coefficients est strictement identique à celle de leurs équivalents de l'étape 1. Seules les variables sur lesquelles ils sont calculés changent (on passe des variables de départ aux séries de résidus) :

)

w2

~

)

Cov(x1i ,

~ 1

(10)

i 1

i

Cov2(x1i ,

~ 1

21

Et, de manière équivalente à l'étape 1 :

~

t2 w2

ix1(11)

i 1

On effectue une régression de y sur ti et t2 et on obtient la relation suivante : y = ci*ti + c2*t2 + y2 (12)

Le coefficient ci restera identique à celui de l'étape 1 car, les variables ti et t2 étant indépendantes, la prise en compte de la variable t2 dans la régression ne modifie pas la relation initiale définie dans la régression entre y et ti.

Néanmoins, cette formulation pose problème, puisque cette fois, y est fonction des variables initiales, mais aussi des variables résiduelles (obtenue par régression sur ti) :

[= cl*W11*x1 + F+ cl*W1p*xp + c2*W21*x11 + F+ c2*W2p*xlp (13)

Les équations deviennent plus chargées, et l'interprétation plus compliquée. Les estimations deviennent également nettement plus laborieuses, si on donne des valeurs arbitraire aux variables xi et si on cherche à connaître la valeur correspondante pour y estimée par le modèle.

Mais il y a moyen de ré-exprimer l'équation de t2 directement en fonction des variables initiales xi. Pour se faire, il suffit de se rappeler comment celles-ci ont été construites : à partir des variables xi et de ti, lors des régressions des variables xi sur ti.

22

Ainsi, on a effectué, pour chaque valeur de j allant de 1 à p, la régression linéaire simple suivante :

x; = cii*ti + xM+ (14) Le coefficient « ci; » étant le coefficient de régression de la variable x; sur tM.

Les xi; peuvent donc s'exprimer de la manière suivante :

xi; = xi -- ci+*ti (15)

Donc, il est possible d'exprimer t2 en fonction des coefficients cii, et des variables xi et de la composante ti.

P

t2 = E W2J . * (X J . -- c 1J . * t ) .(=> (16)

J . 1

Sachant que la composante ti peut elle aussi s'exprimer en fonction des variables xj. L'équation devient donc :

P P

t2 W2 J .* (X -c1J . EW1J . X ) (17 )

J .1 J .1

Si on détaille l'équation, cela nous donne :

t2 = w21*[xl -- ciM*(wiM*xi+ +wip*xp)] + + w2p*[xp -- cip*(wiM*xi + + wip*xp)]

Equation que l'on peut réécrire :

t2 = W21 *X1 -- (EP c1J . W2J . W11)* #177;
·
·
·+ W2P P X (P c1J . * W2J . * P )* X P

J .1J .1

Ou encore :

P P

(18)

t2 (w21

2 W *

11 c1J .

W )*X (W *E )*X

2J . 1 "' 2P -W C W 1P 1J . 2J . P

J .1 J .1

On peut donc définir des coefficients que nous appelleront « w2i' » permettant d'exprimer t2en fonction des variables xi :

W2

P

J .I=W2J .-W Ec *W

2j

1J . 1J . 2j

(19)

J . 1

23

Partie 1: Présentation de la régression PLS Ainsi, on peut résumer t2 à l'équation suivante :

p

t2

w / .'*X

/ .

2

(20)

/ . 1

C'est-à-dire :

t2 = w21'*x1 + ... + w2p'*xp (20) L'équation de y devient alors :

p p

Y*

J

* *w

1

c1

. X/ . #177;c2 *Ew2/ . X q (21)

/ . 1 / . 1

Où y* est une autre notation pour .3

Ou:

[= c1*w11*x1 + ... + c1*w1p*xp + c2*w21'*x1 + ... + c2*w2p'*xp Equation qui peut se réécrire :

[= (c1*w11+c2*w21')*x1 + ... + (c1*w1p+c2*w2p')*xp (22) ou encore

y = (c1*w11+c2*w21')*x1 + ... + (c1*w1p+c2*w2p')*xp + y2 (23) y2 étant la série des résidus de la régression de y sur (t1,t2).

y peut donc s'écrire directement en fonction des variables xj.

La régression de y sur t1 et t2 nous donne le coefficient de corrélation de la régression à l'étape 2. Il nous permet également, par déduction, de connaître l'amélioration du coefficient de corrélation du fait de l'ajout de la 2ème étape.

On peut bien évidemment envisager une 3ème étape, en travaillant à partir des résidus de l'étape 2. Pour se faire, on peut soit effectuer une régression multiple de y, x1, ..., xp sur (t1,t2) et calculer les résidus, soit effectuer une régression simple de y1, x11, ..., x1p sur t2, et calculer les résidus. La seconde méthode semble être la plus simple étant donné qu'à

3 Les différences de notations sont dues à l'utilisation de Microsoft Equations 3.0, logiciel permettant d'insérer des équations notamment dans des documents Word mais ne présentant pas les mêmes possibilités en matière d'insertion de caractères spéciaux.

ce stade des calculs, on connaît normalement déjà les variables yi, xii, ..., xMp puisqu'on a été obligé de les calculer lors de la seconde étape.

Nous allons maintenant nous intéresser à une propriété très intéressante des composantes, il s'agit de l'orthogonalité (indépendance) des composantes entre elles.

VII. Indépendance des composantes

L'une des propriétés primordiales d'une régression PLS est l'indépendance des composantes ti, t;, ..., tH formées à partir des variables explicatives.

En effet, la première composante ti est formée à partir des variables explicatives, en leur donnant certains coefficients sur base de leur covariance avec la variable expliquée « y » (ou de leur coefficient de corrélation avec la variable y si les variables sont centrées réduites). Pour se faire, la variable ti sera représentative d'une partie de la variance des variables explicatives. Bien entendu, si y n'est pas une combinaison linéaire des variables explicatives, et qu'il y a plus d'une variable explicative dans l'analyse (et qu'aucune de ces variables n'est combinaison linéaire des autres), la variable ti sera insuffisante pour expliquer toute la variance de y, de même qu'elle sera insuffisante pour expliquer toute la variance des variables explicatives, et toute la covariance des variables explicatives avec y.

Il en demeurera un résidu. La variance de y ne sera pas totalement expliquée par la variance de ti. Il y a moyen d'améliorer le pouvoir explicatif du modèle. Pour cela, on s'intéresse aux résidus, qui ont été « oubliés » par la première composante. Cette première composante est indépendante des résidus. Or, on se sert de ces résidus pour construire la seconde composante t;, qui sera par la même occasion indépendante de ti. La composante t; s'intéressera donc à la variance de y qui n'est pas expliquée par ti. Les résidus qui en résulteront, qui sont donc indépendants de t;, et indépendants de ti (ils sont le résultat d'une régression sur des résidus qui sont déjà indépendants de ti), serviront à la création de t3. t3 sera donc indépendante de ti et t;. Il en ira de même pour toutes les composantes, qui seront toutes indépendantes entre elles.

Cette indépendance peut se démontrer assez facilement d'un point de vue mathématique. Voici la démonstration telle qu'elle est présentée dans l'ouvrage « La Régression PLS Théorie et Pratique » de Michel TENENHAUS, avec quelques précisions supplémentaires :

L'argument avancé est le suivant : th'tl = 0 pour l_h.

th est le vecteur formé des « n » valeurs que prend la hième composante pour les « n » individus. th' est la transposée du vecteur th.

tl est le vecteur formé des « n » valeurs que prend la lième composante pour les « n » individus.

Le fait que le produit th'tl soit égal à 0 traduit covariance nulle entre les deux composantes, et donc une indépendance de celles-ci, pour autant que les variables de départ soient centrées (ce qui donne également des composantes centrées). Si les composantes sont centrées, leur moyenne est nulle. Les écarts à la moyenne deviennent donc égaux aux valeurs prises. La covariance, qui est la moyenne des produits des écarts à la moyenne, devient donc égale à la moyenne des produits des valeurs des composantes. Si th'tl = 0, cela veut dire que la somme des produits des valeurs des composantes h et l est nulle. Donc, la moyenne de ces produits est également nulle. La covariance est donc nulle, et les variables sont donc indépendantes.

On a ti't2 = ti'Xiw2 = 0 puisque ti'Xi = 0.

Xi étant la matrice des résidus des régressions des variables xi sur ti. w2 est le vecteur de coefficients associés aux résidus xi; pour former la composante t2.

Le fait que ti'Xi = 0 vient du fait que la matrice Xi est la matrice des résidus des régressions des variables xi sur ti.

Supposons ti, ..., th orthogonaux, alors les vecteurs ti, ..., th#177;i sont orthogonaux. Montrons que th#177;i est orthogonal aux vecteurs ti, ..., th :

t'hth#177;i = t'hXhwh#177;i = 0 puisque t'hXh = 0

t'h-fth#177;1 = t'h-1Xhwh#177;1

= t'h-1[Xh-1- thp'h]wh#177;i

= [t'h-iXh-i -- t'h-ithp'h]wh#177;i

= 0 puisque t'h-iXh-i = 0 et t'h-lth = 0 par l'hypothèse de récurrence.

Sachant que ph=X'h-ith/t'hth, c'est à dire que ph est le vecteur des coefficients de régression entre la composante th et les xh-1j.

t'h-2th#177;1 = t'h-2Xhwh#177;1

= t'h-2[Xh-2 -- th-ip'h-i -- thp'h]wh#177;i = 0

Puisque t'h-2Xh-2 = 0, t'h-2th-i = t'h-2th = 0, et ainsi de suite, d'où le résultat.

Cette indépendance entre les composantes entraîne mécaniquement l'impossibilité de construire un nombre de composantes supérieur au nombre de variables explicatives comprises dans la régression, puisqu'elles sont formées à partir de ces variables. De plus, si certaines variables explicatives sont strictement combinaisons linéaires les unes des autres, cela entraînera d'autant une réduction du nombre maximal possible d'étapes.

On peut, par un raisonnement similaire, penser que la présence de variables fortement autocorrélées (sans être forcément combinaisons linéaires les unes des autres) réduit d'autant l'intérêt d'intégrer un trop grand nombre de composantes dans l'analyse.

Nous allons, à présent, nous intéresser brièvement au centrage et à la réduction des données, deux notions capitales en analyse statistique, et incontournable en régression PLS (du moins s'agissant du centrage des données).

VIII. Centrage et réduction des données

Il est important, avant d'interpréter une régression, de savoir si elle porte sur des données centrées ou non, réduites ou non. L'interprétation du modèle obtenu en est complètement modifiée.

Le fait de centrer les données permet notamment de ne retenir que les variations des variables autour de la moyenne. Cela facilite en outre les calculs de covariance et des coefficients de corrélation. Le centrage des données ne modifie en aucun cas la variance (et l'écart-type) mais ramène la moyenne de la série à O. Pour centrer une série, on retranche à chacune de ses données la moyenne de la série.

La réduction des données permet d'éliminer les effets d'échelle. Une série de grands nombres, telle que le PIB d'un pays, aura tendance à varier très fortement (en valeur absolue), alors qu'une série de nombre faibles, comme par exemple des taux d'intérêts, aura tendance à varier très peu (toujours en valeurs absolue). La réduction des données permet de prendre équitablement en compte les variations relatives autour de la moyenne, et non les variations absolues. Le fait de réduire une série de données ramène la valeur de l'écart-type (et donc de la variance) de la série à 1. Lors d'une régression, la réduction des données va peser sur l'ordre de grandeur des coefficients.

La réduction des données n'affecte pas la qualité d'une régression. En revanche, le centrage l'affecte généralement. En effet, centrer les données revient à considérer les données non centrées auxquelles on ajoute une constante.

En régression PLS, les données doivent être impérativement centrées, sans quoi les propriétés mathématiques de la régression seraient modifiées. Il serait en outre impossible de régresser sur des données non centrées avec constante (car les coefficients, basés sur des critères de covariance, seraient systématiquement nuls pour une constante). Cela affecterait la qualité de la régression.

La réduction des données n'est par contre pas nécessaire. Elle influence seulement l'ordre de grandeur des coefficients. Le fait de ne pas réduire les données permet une interprétation plus directe des coefficients. Le fait de travailler sur un modèle réduit permet en revanche d'obtenir des coefficients qui représentent mieux la part « d'explication » de la variance de y par chaque variable explicative.

Note : Normalement, lorsqu'on centre et on réduit les données, on commence d'abord
par les centrer, puis on les réduit dans un second temps. L'inverse est possible, mais

27

après la réduction, il faut retrancher des données la « moyenne réduite » (la moyenne des données réduites) et non la moyenne de la série initiale. Ceci vient du fait que la réduction des données affecte à la fois la variance et la moyenne, alors que le centrage n'affecte que la moyenne (donc, réduire en second lieu n'impose pas de recalculer la variance des données centrées). Quoi qu'il en soit, centrage des données et réduction des données sont deux concepts indépendants.

Bien qu'il ne soit pas possible d'effectuer une régression PLS sur des variables non - centrées, et qu'il soit impossible de calculer une constante, il est possible de passer, après obtention des résultats, d'un modèle centré à un modèle non-centré avec constante.

Notons qu'il est également possible (et facile) de passer d'un modèle centré, réduit, à un modèle centré, non réduit.

Prenons par exemple trois variables. A comme variable expliquée, B et C comme variables explicatives. Notons Acr, Bcr et Ccr les variables A, B et C centrées et réduites, et Ac, Bc et Cc les variables centrées non-réduites.

Si on travaille sur modèle centré-réduit, on aura une relation du type :

Acr = b*Bcr+c*Ccr, où b et c sont les coefficients obtenus par régression (quelle qu'elle soit) associés respectivement aux variables B et C.

Pour passer aux variables centrées, non réduites, il suffit de remplacer Acr, Bcr et Ccr par leur expression en fonction de Ac, Bc et Cc.

Acr = Ac/a(A), Bcr = Bc/a(B) et Ccr = Cc/a(C).

Le modèle devient donc :

Ac/a(A) = b*Bc/a(B) + c*Cc/a(C)

« Ac = [b*Bc/a(B) + c*Cc/a(C)^*a(A)

Ce qui nous donne :

Ac

*(a)1 *Bc [c * (a)

o-

(b)

o- (c) *Cc(24)

Les coefficients de la régression centrée (non-réduite) peuvent être obtenus en multipliant ceux de la régression centrée-réduite par le rapport de l'écart type de la variable expliquée sur l'écart type de la variable explicative (a(Y)/a(X) si Y est la variable expliquée et X la variable explicative considérée).

Le passage d'un modèle simplement réduit (non-centrée) à un modèle non-centré et non-réduit se fait bien entendu de la même manière.

28

On annule donc la réduction en multipliant les coefficients par le rapport des écarts types de la variable expliquée et de la variable explicative.

Pour décentrer des données, il suffit d'établir un raisonnement similaire. Si nous sommes en présence d'un modèle centré du type Ac = b*Bc + c*Cc (où Ac, Bc et Cc représentent les variables A, B, C une fois centrées), on peut le réécrire de la manière suivante :

)

A

(A--A)=b*(B--B)+c*(C--C
A=b
*(B--B)+c*(C--C)

A b*B+c*C--b*B--c*C+ A (25)

Sachant que A , B et C sont les moyennes calculées initialement sur les séries A, B et C.

La manipulation est la même si l'on souhaite passer d'un modèle centré-réduit à un modèle non centré et réduit, à la différence près qu'il faut retrancher les moyennes réduites en lieu et place des moyennes initiales.

IX. Le critère de validation croisée

La validation croisée se base sur la qualité d'approximation du modèle des valeurs de la variable expliquée pour les individus sur lequel il se fonde.

On cherche à prendre en compte deux éléments, qu'on va ensuite comparer. Il s'agit des critères RSS (Residual Sum of Squares) et PRESS (PRediction Error Sum of Squares). Les deux prennent normalement des valeurs différentes pour chaque étape de la regression (ils diminuent à chaque étape).

Le premier, le critère RSS, n'est autre que la somme du carré des résidus (SCR), calculé en comparant les prédictions de la valeur expliquée (y) par le modèle pour chaque individu, aux valeurs initiales de la valeur y pour ces mêmes individus.

A l'étape h, la formule de RSS est :

n

RSSh =E(yi- (y *) hi )2 (26)

i ~

Où yi est la valeur initiale (centrée-réduite) pour l'individu i. (y*)hi = Shhi= ci*tii + + ch*thi (27)

On peut résumer ce critère en disant qu'il s'agit de la somme des erreurs
d'approximation du modèle mises au carré. De la connaissance de ce critère, et de la
connaissance de la variance de la variable y, on peut aisément retrouver le coefficient

de détermination de la régression. Plus le coefficient de détermination de la régression est faible, et plus la somme des carrés des résidus est élevée. En effet, le modèle est d'autant plus efficace qu'il commet peu d'erreurs. Un modèle « parfait », dans cette optique, est un modèle pour lequel où les écarts des prédictions sont nuls, donc où SCR (RSS) est nul, et donc le coefficient de détermination (R2) égal à 1.

Le critère RSS nous donne donc une idée de la qualité du modèle. Mais le problème est qu'il n'est pas suffisant car il délivre une information « absolue » sur les résidus et non « relative » (relative à la variance de la variable à expliquer). C'est pourquoi le R2 lui est préférable.

Quoi qu'il en soit, plus la régression PLS comporte d'étapes, et plus la qualité d'approximation du modèle est bonne (ou, au moins, aussi bonne qu'aux étapes précédentes). Le critère RSS diminue donc d'étape en étape.

Ainsi, RSS1 RSS2 RSS3 ...

L'autre critère, le PRESS, lui est assez similaire. La différence est qu'il s'attache à mesurer la qualité de prédiction du modèle sur les individus lorsqu'ils sont exclus de ce modèle. Pour cela, on effectue, pour chaque individu, une régression PLS (à « h » étapes, car on cherche à mesurer la pertinence de la hème étape) en excluant cette individu des calculs du modèle. Ensuite, on estime la valeur de la variable expliquée pour cet individu, à l'aide des valeurs de ses variables explicatives et des coefficients obtenus dans la régression qui ne prenait pas en compte la présence de cet individu. On compare cette valeur à la valeur effective de « y » pour cet individu, et on obtient un résidu. On renouvelle l'étape avec tous les autres individus, et puis on fait la somme du carré de ces résidus.

Par exemple, on commence en prenant le premier individu d'une régression qui comporte « n » individu. On effectue la régression PLS sur les (n-1) derniers individus, et on estime, à l'aide des coefficients de cette régression, et des valeurs des variables explicative pour ce 1er individu, la valeur de la variable expliquée, donnée par le modèle. On la compare avec la valeur effective de y et on garde le résidu. On répète ainsi l'opération avec le 2ème individu, en effectuant la régression sur le 1er et les (n-2) derniers individus. L'opération, au final, a été répétée autant de fois que la régression ne comporte d'individu, chacune de ces régressions visant à prédire la valeur de y de l'individu qui a été exclu de leur calcul4.

4 On peut également exclure des individus « bloc par bloc », par exemple deux par deux, et les prédire simultanément. La taille des blocs dépend avant tout de la quantité totale d'individus, car exclure systématiquement les individus un par un demande un nombre considérable de calculs.

PRESSh 0.95 * RSSh_i a (33)

30

Partie 1: Présentation de la régression PLS Voici la formule du PRESS de la régression PLS à l'étape h :

n

PRESS h = E (Yi - (Y*) h( i) )2 (28)

i i

Où y*h(-i) est mis pour ÿh(-i), c'est-à-dire l'estimation de « yi » par la régression PLS à h étapes qui ne prend pas en compte le ième individu.

On a donc deux estimateurs de la qualité de la régression. Le premier, le RSS, en prenant en compte 100% de l'information de la régression que l'on cherche à estimer, sera forcément plus faible (car l'estimation de meilleure qualité) que le PRESS, qui se prive, pour l'estimation de chaque individu, de la présence de l'individu en question dans les calculs.

Pour l'étape h, le PRESS sera donc supérieur au RSS. On sait également que le PRESS, à l'étape h, est inférieur au PRESS à l'étape h-1. Il en va de même pour le RSS.

On peut donc écrire les relations suivantes :

PRESSh z RSSh (29)

RSSh s RSSh-1 (30)

PRESSh s PRESSh-1 (31)

L'inconnue est la relation qui lie le critère PRESS à l'étape h au critère RSS de l'étape (h-1). Le PRESS de l'étape h sera forcément inférieur ou égal à ce qu'il était à l'étape h1. Il sera également forcément supérieur ou égal au RSS de l'étape h. En revanche, s'il parvenait à être inférieur au RSS de l'étape (h-1), cela voudrait dire que la qualité d'estimation du modèle s'est considérément améliorée, puisqu'il peut désormais estimer, avec plus de précision, les valeurs « yi » des individus, sans les connaître au préalable, que le modèle de l'étape précédente ne le peut, en les connaissant.

Donc, par exemple, le fait que la composante « h » ait une importance significative dans la régression pourrait se traduire par le fait que PRESSh soit inférieur à RSSh-1. On peut aussi être plus ou moins exigeant en donnant un coefficient différent de 1 à RSSh-1 :

PRESSh s x*RSSh-1 (32)

Si x est inférieur à un, on accentue la contrainte, on aura moins tendance à retenir des étapes supplémentaires.

Dans le logiciel SIMCA-P, par exemple, la composante th est retenue si :

31

Le fait que l'équation soit mise sous forme de racine est simplement la conséquence du fait qu'on cherche à se replacer à l'échelle des résidus, et non à l'échelle des résidus au carré. Cela rend le critère de choix mieux interprétable. Cela veut dire, à peu de choses près, que les résidus tels qu'ils sont calculés dans le PRESSh, pris en valeur absolue, ne doivent pas, en moyenne, excéder 95% des résidus tels qu'ils sont calculés dans le critère RSSh-1.

On peut se passer des racines et revenir à une équation de la même forme que la précédente (30), mais le coefficient doit être mis au carré.

PRESSh s 0.9025*RSSh-1 (34) Ou encore :

PRESSh < 0.9025 (35) RSS

h 1

Ceci est également retranscris de la manière suivante dans l'ouvrage « La Régression PLS : Théorie et pratique » de Michel Tenenhaus :

PRESS

Q2(h) --1--

h 0.0975 (36)

RSS h1

On peut passer de la forme précédente (35) à celle-ci (36) de la manière suivante :

PRESS

(35) <=> h 1 0.0975

RSS h1

PRESS

<=> h 0.0975 --1

RSS h 1

RSS

h 1

1 (36)

PRESSh

<=> h 0.0975

Tout ceci est donc strictement équivalent, mais certaines formes se prêtent mieux au calcul et d'autres mieux à l'interprétation.

Le principal problème du critère de validation croisée est qu'il fait appel à un nombre considérable de calculs. Il faut en effet effectuer, pour chaque étape, autant de régression PLS que d'individus présents dans la régression initiale, afin d'être en mesure de calculer le PRESS de l'étape en question.

32

De plus, la valeur du coefficient que nous avons appelé « x » est complètement arbitraire, et s'en tenir strictement à ce critère pourrait se révéler dangereux, dans la mesure où cela pourrait donner des résultats assez aléatoires (il arrive parfois que certaines composantes apportent plus, en terme de prédiction, que celles qui les précèdent), et on n'a pas vraiment le loisir de se prononcer sur la structure des composantes.

C'est pourquoi nous allons nous intéresser à l'utilisation conjointe de deux autres critères.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle