WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II. Un exemple à trois variables explicatives

Reprenons le même exemple mais en ajoutant deux séries fictives supplémentaires (qui seront utilisées comme variables explicatives supplémentaires) :

La matrice des corrélations correspondantes est la suivante :

Et la matrice des variances-covariances :

Ces séries supplémentaires ont volontairement été créées de manière à diminuer les résidus, c'est-à-dire à améliorer le pouvoir explicatif du modèle, même si une part aléatoire a été volontairement conservée. Les 5 séries étant purement fictives, il sera inutile d'appliquer quelque modèle que ce soit, qui soit fondé sur ces séries, à la réalité.

Effectuons tout d'abord une régression linéaire simple sur ce modèle. Avec Eviews 5.0, on obtient :

- En travaillant sur les données non-centrées et non-réduites et avec intégration

d'une constante :

Poids = 1.039*Taille

-- 2.5*Activité + 0.012*Calories -- 133.426. Les 4 coefficients sont jugés significatifs au seuil de 1%, ce qui est plutôt étrange quand on regarde la corrélation Poids/Activité (corrélation apparemment très faible). Le signe du coefficient « Activité » est également surprenant, à priori, étant donné qu'il est opposé à celui du coefficient de corrélation Poids/Activité.

On obtient un coefficient de détermination de la régression de 98,08%.

- En travaillant sur les données centrées-réduites :

Poidscr = 0.893*Taillecr -- 0.296*Activitécr + 0.255*Caloriescr

Le coefficient de détermination est toujours de 98,08%. Les 3 coefficients sont jugés significatifs au seuil de 1%.

- Si on travaille sur les données initiales sans constante, on obtient la relation :

Poids = 0.221*Taille - 0.603*Activité + 0.013*Calories. Cette fois, le coefficient de corrélation n'est plus que de 58,81%, et aucun coefficient n'est significatif au seuil de 1% (le coefficient associé à la variable Activité n'est pas non plus significatif au seuil de 5%, ce qui n'est toutefois pas le cas des autres). On comprend donc ici tout l'intérêt d'intégrer une constante dans la régression ou de centrer les données (la réduction n'importe pas).

Effectuons à présent une régression PLS univariée sur le modèle en question : II.1. Régression PLS à 1 étape

- Modèle normal :

Poids = 0.694*Taille + 0.249*Activité + 0.021*Calories -- 102.603 - Modèle centré-réduit :

Poidscr = 0.597*Taillecr + 0.031*Activitécr + 0.477*Caloriescr

Le coefficient de détermination (R2) de la régression de Y sur t1 est de 87,97%. On ne peut donc pas dire qu'il soit identique à celui de la régression multiple, puisqu'il lui est inférieur.

A la vue de ce premier modèle, on peut dors et déjà tirer quelques conclusions, et on peut se poser plusieurs questions :

- Le coefficient de régression est inférieur à celui de la régression linéaire simple. La régression PLS serait-elle une méthode moins efficace que la régression linéaire simple ?

- Les coefficients affectés aux différentes variables ne sont pas du tout les mêmes d'un modèle à l'autre. Parfois même, on observe un changement de signe : c'est le cas pour la variable Activité. La régression PLS serait-elle plus « objective » que ne l'est la régression linéaire simple ?

- On constate cette fois que la variable Activité observe un coefficient de signe similaire à son coefficient de corrélation avec la variable poids.

- Les deux derniers points découlent directement du fait que les variables étant centrées, et n'ayant retenu qu'une seule étape, les coefficients sont directement proportionnels aux coefficients de corrélation des différentes variables explicatives par rapport à la variable Poids.

Comparons les deux modèles (non-centrés, non-réduits, avec constante) en utilisant leurs prévisions des valeurs de la variable expliquée (Poids) :

Y correspond à la variable Poids (variable expliquée)pour les 10 individus.

Y_rlm correspond à la prédiction de la variable Poids pour les mêmes individus par le modèle de régression linéaire simple, Res_rlm correspond aux résidus de cette régression.

Y_pls(1) correspond à la prédiction de la variable Poids pour les mêmes individus par le modèle de régression PLS1 à une étape, la colonne Res_pls(1) correspondant aux résidus.

SCT (somme des carré totale, c'est la somme des carrés des écarts à la moyenne de Y) = 1131.6 SCR_rlm (somme des carrés résidus pour la régression linéaire multiple) = 21.715 SCR_pls(1) (somme des carrés résidus pour la régression PLS à une étape) = 114.402

Partie 2 : Utilisation de la régression PLS sur des cas limites Plusieurs remarques :

- La somme des résidus (sans les élever au carré) de la régression multiple est égale à 0, car les résidus s'annulent, et c'est également le cas de la régression PLS à une étape.

- La somme du carré des résidus de la régression PLS(1)6 est très nettement supérieure à celle de la régression linéaire simple. Cela ne nous apprend rien, puisque le coefficient de la régression PLS(1) était nettement inférieur à celui de la régression multiple.

- La prévision de la régression PLS(1) n'est meilleure que dans le cas du 8ème individu. - Généralement, les erreurs de prévisions vont dans le même sens, exception faite des individus 1, 2 et 5.

- Les écarts de prévisions (entre les deux méthodes) les plus marqués (en valeur absolue) concernant les individus 1, 2, 4 et 5, plus particulièrement l'individu n°1 et l'individu n°2. L'individu n°1 est très mal prédit par le modèle PLS(1).

Ceci étant dit, passons à la régression PLS à 2 étapes. II.2. Régression PLS à 2 étapes

- Modèle normal :

Poids = 0.844*Taille + -2.225*Activité + 0.019*Calories -- 119.039 - Modèle centré-réduit :

Poidscr= 0.725*Taillecr + -0.277*Activitécr + 0.442*Caloriescr

Le coefficient de la régression passe de 87,97% à 95,52%. La part de la variance expliquée par t1 est de 87,97% (normal, puisque t1 n'a pas changé) et celle expliquée par t2 est de 7,55% (on l'obtient directement par différence, les composantes étant indépendantes).

Plusieurs conclusions s'imposent :

- Les coefficients sont tous modifiés, tous de manière assez importante, exception faite du coefficient lié à la variable Calories.

- Les coefficients se rapprochent tous de leur valeur en régression linéaire multiple. Exemple : dans le modèle normal, le coefficient lié à la variable Taille passe de 0.694 à 0.844 et se rapproche ainsi fortement du coefficient de la régression linéaire (1.039). La différence la plus flagrante concerne le coefficient lié à la variable Activité. Il était de 0.249 dans le modèle normal PLS(1), il est maintenant de -2.225 dans le modèle normal

6 Les notations PLS(1), PLS(2), ... PLS(p) seront couramment utilisées pour désigner respectivement les modèles PLS à 1, 2, ..., p étape(s). Il est important de ne pas les confondre avec les notations PLS1 et PLS2, désignant respectivement des modèles de régression PLS univariée et multivariée.

PLS(2). Il s'est considérablement rapproché de la valeur du modèle de régression linéaire (-2.5).

- Ce dernier coefficient, justement, a changé de signe, et n'est donc plus du même signe que le coefficient de corrélation Poids/Activité. Son ordre de grandeur est également significativement modifié. Il était très faible, notamment s'agissant du modèle centré-réduit. Il possède à présent un ordre de grandeur qui se chiffre en dixième, à l'instar des coefficients des autres variables. Pourtant, si on regarde les coefficients de corrélation, le coefficient de la variable Activité devrait rester insignifiant en comparaison aux autres. Comment ceci peut-il s'interpréter ?

- La qualité de la régression s'est nettement améliorée, tendant subitement vers celle de la régression linéaire simple, bien qu'elle lui reste inférieure.

Afin de mieux se rendre compte de l'amélioration de la qualité de la régression,
reprenons le précédent tableau et ajoutons-y les prédictions et les résidus du modèle

PLS (2)

Ce que l'on peut remarquer :

- La somme des carrés des résidus s'élève à 50.669 pour le modèle PLS(2), ce qui est nettement inférieur à ce qu'il en était à l'étape 1 (114.402), et qui se rapproche de ce que l'on observe s'agissant de la régression linéaire (21.715).

- Les erreurs d'estimation les plus fortes concernent les individus 4, et 6, plus particulièrement l'individu 4. Ces erreurs tendent même à s'aggraver, alors que dans tous les autres cas, elles diminuent (exception faite de l'individu 7 pour lequel la prévision reste stable). On pourrait penser que le modèle PLS(2) ignore « volontairement » l'individu n°4, car si on l'enlève de l'analyse, la somme des résidus tendrait vers une valeur plus faible.

- De plus, si on enlevait l'individu 4 de l'analyse, la somme des résidus au carré (SCR)
plongerait de 50.669 à 17.367. La somme des résidus au carré du modèle de régression
linéaire passerait quant à elle de 21.715 à 18.929, soit une sensibilité nettement plus

faible (ce qui est normal, l'individu 4 est nettement mieux prédit par le modèle de régression linéaire). Le modèle PLS(2) serait alors meilleur prédicateur des valeurs actives que le modèle de régression linéaire. La régression PLS pourrait-elle donc être une analyse plus pertinente que la régression linéaire simple, exception faite de certains individus ?

- Seul l'individu 1 fait l'objet d'une opposition du signe des résidus. En revanche, les individus 2 et 5, qui faisaient l'objet d'un désaccord de signe à l'étape 1, ne le font plus à l'étape 2 (le désaccord restant néanmoins assez prononcé en valeur absolue).

Il est très intéressant de noter que si on pratique une régression linéaire simple en enlevant le 4ème individu de l'analyse, on obtient les résultats suivants :

- Modèle normal avec constante :

Poids = 0.878*Taille -- 2.265*Activité + 0.017*Calories -- 120.171 - Modèle centré-réduit :

Poidscr = 0.708*Taillecr -- 0.288*Activitécr + 0.381*Caloriescr

Le coefficient de détermination passe à 98.78%.

La somme du carré des résidus passerait de 21.715 à 12.74, pour seulement un individu (sur 10) ôté.

On remarque que les coefficients se rapprochent très nettement de leur valeur calculée par le modèle PLS(2).

Ceci nous amène à une double conclusion :

- Le retrait de l'individu 4 des individus actifs améliore sensiblement la qualité de l'analyse. Bien que l'individu 4 était assez bien prédit par la régression linéaire, son retrait a permit de « relâcher » la régression, au sens où la prise en compte forcée de cet individu atypique empêchait le modèle de prédire correctement certains des autres individus.

Partie 2 : Utilisation de la régression PLS sur des cas limites Le tableau suivant illustre ce phénomène :

Res2 rlm représente la série des résidus au carré de la régression linéaire pour chaque individu.

Res2 rlm(-4) représente cette même série pour la régression linéaire avec le 4ème individu ôté de l'analyse. La colonne «gain » représente le gain apporté par le retrait du 4ème individu dans l'analyse en termes de résidu au carré Il se calcule par soustraction suivante : Res2 rlm - Res2 rlm(-4).

Globalement, on observe un gain sur le critère des MCO de 8.975 (21.715 -- 12.74). Ce gain est expliqué à 31% par la disparition du résidu lié au 4ème individu, et à 69% par l'amélioration des prédictions des autres individus.

On note néanmoins que c'est l'individu 2 qui profite au mieux de ce retrait, et que les individus 3, 5, 6 et 7 sont à présent moins bien estimés. On peut donc penser que l'individu 2 et l'individu 4 sont dans une certaine mesure opposés car ils ne s'analysent pas de la même manière, étant donné que la prise en compte de l'individu 4 fausse énormément la prédiction de l'individu 2.

- L'analyse se rapproche de celle établie par la régression PLS à l'étape 2. Les coefficients se rapprochent de ceux du modèle PLS(2). Cela nous confirme, dans une certaine mesure, que le modèle PLS(2) a négligé l'individu n°4, et que d'une certaine manière, c'est un point positif, puisque ce dernier faussait les prévisions des autres individus.

Néanmoins, il est important de signaler que si le retrait de l'individu 4 fait passer le R2 de la régression linéaire de 98.08% à 98.78%, le retrait de l'individu 2 (en laissant l'individu 4) fait passer le R2 de la régression de 98.08% à 99,2%, ce qui serait encore plus significatif.

Le tableau suivant résume les différents coefficients de corrélation (en régression linéaire) résultant du retrait de chaque individu :

On remarque que 4 individus (les individus 3, 6, 7 et 10) n'ont pas intérêt à être retirés en termes de R2. Leur retrait détériorerait la qualité de la régression. Ces 4 individus présentent très probablement des caractéristiques « dans la moyenne » des autres. Les retirer ne ferait que mettre encore plus en évidence le caractère inconciliable de l'analyse des autres individus. Cela ne modifierait pas outre mesure les coefficients, mais rendrait la qualité de la régression plus mauvaise.

Note : Il n'est pas inconcevable que le retrait d'un individu altère le coefficient de régression. Normalement, cela devrait l'améliorer, car moins il y a d'individu, plus il est possible d'ajuster les coefficients des variables afin d'expliquer les autres. C'est particulièrement le cas lorsqu'il y a presque autant de variables explicatives que d'individus. Néanmoins, si l'individu est bien prédit par le modèle, son retrait risque de réduire très peu la somme des carrés résiduels, et de réduire fortement la somme des carrés totale. Si le terme SCR diminue moins, en proportions, que le terme SCT, la qualité de la régression se détériorera.

En revanche, les individus dont le retrait améliorerait significativement la qualité de l'analyse sont les individus 2, 4 et 8. On peut penser qu'ils sont quelques peu atypiques, et, de ce fait, « tirent » vers eux l'analyse, influençant ainsi fortement les coefficients.

Il serait difficile d'aller plus loin dans l'analyse, dans la mesure où l'on ne dispose pas d'une population sur laquelle on puisse tester les différents modèles, et ainsi s'apercevoir de la qualité des différents individus actifs.

Passons donc à la régression PLS à 3 étapes.

Partie 2 : Utilisation de la régression PLS sur des cas limites II.3. Régression PLS à 3 étapes

Les deux modèles sont les mêmes qu'en régression linéaire simple :

- Poids = 1.039*Taille -- 2.5*Activité + 0.012*Calories -- 133.426 pour le modèle non centré, non-réduit.

- Poidscr = 0.893*Taillecr -- 0.296*Activitécr + 0.255*Caloriescr pour le modèle centré réduit.

Toutes les statistiques associées sont donc similaires. La troisième composante apporte un gain de 2.56% et porte donc le coefficient de corrélation à 98.08%, comme dans la régression linéaire simple.

Il est inutile de calculer les valeurs de Y ainsi que les résidus, puisqu'ils sont nécessairement les mêmes qu'en régression linéaire.

La seule chose que nous pouvons conclure est la convergence de la régression linéaire simple et de la régression PLS à 3 étapes, soit quand on retient autant d'étapes que de variables explicatives (le maximum d'étapes possibles). Il est inutile de tenter d'exploiter les résidus de l'étape 3 pour une 4ème étape, cela n'apporterait aucun gain, ces résidus n'étant plus du tout corrélés, la 4ème composante serait nulle, ainsi que toutes celles qui suivraient.

Dans ces conditions, si on considère la dernière étape possible comme étant la version la plus aboutie de la régression PLS, quel peut-être l'apport de la régression PLS par rapport à la régression linéaire simple, si les résultats sont les mêmes ?

Conclusions sur cette régression à 3 variables explicatives :

Nous allons essayer de synthétiser tout ce que nous avons observé au cours des 3 étapes, et nous tâcherons ensuite d'expliquer point par point ce qui a aboutit à ces résultats.

Au cours de cette régression, nous avons observé plusieurs choses :

- La régression linéaire simple est celle qui obtient les meilleurs résultats en termes de coefficient de régression et donc de SCR sur l'ensemble des individus actifs.

- En régression linéaire simple, comme en régression PLS (à quelque étape que ce soit), résidus positifs et négatifs se compensent parfaitement.

- La qualité, en termes de R2 et de SCR, de la régression PLS, s'améliore d'étape en étape.

- L'ordre de grandeur des différents coefficients peut fortement varier d'une étape à
une autre, ainsi que leur signe. Dans un premier temps, lors du modèle PLS(1), ces
coefficients sont strictement proportionnels aux corrélations entre la variable expliquée

et les différentes variables explicatives. Ensuite, les résultats se rapprochent progressivement de ceux trouvés à l'aide de la régression linéaire.

- De manière générale, on observe une convergence de la régression PLS vers la régression linéaire simple lorsque le nombre d'étapes augmente, pour obtenir des résultats égaux lorsqu'il y a autant d'étapes que de variables.

- Selon le modèle PLS(1), la relation Poids/Activité est positive, ce qui n'est pas le cas dans les autres modèles.

- De manière générale, les résidus ont tendance à aller dans le même sens s'agissant des trois modèles calculés, exception faite de quelques individus.

- Le modèle PLS(2) voit ses coefficients se rapprocher de ceux de la régression linéaire simple (par opposition au modèle PLS(1)), pratiquement dans tous les domaines (coefficients, coefficient de corrélation, résidus, ...). Le modèle PLS(2) semble donc être une sorte de compromis entre le modèle PLS(1) et le modèle de régression linéaire (ou modèle PLS(3)).

- Dans un premier temps, les résidus de la régression PLS(1) sont nettement plus élevés que ceux de la régression linéaire. A la première étape, la régression PLS est un beaucoup plus mauvais prédicateur (en terme de résidus) que ne l'est la régression linéaire, concernant tous les individus, exception faite du 2ème individu.

- Si on enlève l'individu n°4, les résultats de la régression PLS(2) sont nettement meilleurs et on observe qu'ils surpassent ceux de la régression linéaire (calculée sur les 10 individus actifs, ce n'est bien entendu plus le cas si on enlève l'individu 4 de l'analyse, puisque la régression linéaire est celle qui, par définition, minimise la somme des carrés des résidus). L'individu 4 est donc probablement vu comme un individu atypique, que la régression PLS(2) a jugé bon de négliger.

- Nous avons vu que l'individu 4 s'oppose à l'individu 2. Si la régression PLS(2) a choisi de le négliger, ce n'est pas le cas de la régression linéaire, qui, au contraire, laisse un peu plus de coté l'individu 2. On a donc constaté que l'exclusion de l'individu 2 de la régression permettait une nette amélioration des résultats selon le critère des MCO.

Plusieurs phénomènes permettent en réalité d'expliquer ou de résumer ces conclusions :

- Le modèle de régression linéaire est par définition celui qui obtient le meilleur résultat par rapport à son propre critère.

- La régression PLS est une forme de généralisation de la régression linéaire simple ou multiple.

- La régression PLS, dans sa première étape, et, dans une moindre mesure, dans les quelques étapes qui suivent (en cas de grand nombre d'étapes), prend avant tout en compte les corrélations simples entre les variables, alors que la régression linéaire va au-delà de ce simple critère.

Nous allons donc nous attarder sur ces trois points.

III. La régression linéaire et critèredesmoindrescarrésle

Bien sûr, la régression linéaire au sens des MCO n'est pas le sujet du mémoire. Néanmoins, il est bon de savoir qu'il est impossible d'obtenir, via un modèle linéaire, un meilleur résultat en termes de SCR que celui obtenu par la régression linéaire, puisque c'est le critère sur lequel se fonde cette méthode.

On peut éventuellement trouver un meilleur modèle, mais seulement sous une forme qui ne soit pas linéaire. Ce n'est pas le cas de la régression PLS, qui est elle aussi un modèle linéaire.

La régression PLS ne peut donc, en aucun cas, toute chose égale par ailleurs, fournir un modèle qui soit un meilleur prédicateur de l'ensemble des variables actives en termes de SCR, que celui fourni par la régression linéaire simple ou multiple.

Le résultat peut au mieux égaler celui obtenu par la régression linéaire simple, notamment en utilisant le nombre maximal d'étapes, ce qui n'est pas l'intérêt initial de la méthode.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'ignorant affirme, le savant doute, le sage réfléchit"   Aristote