WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

V.1. Régression PLS et MCO : Différence entre objectivité et opportunisme

La régression linéaire, en cherchant « à tout prix » à passer au plus près du nuage de points, peut-être amenée à effectuer une sorte de « surparamétrage » et à livrer une explication qui finalement ne rend plus compte des caractéristiques des variables explicatives, et de leur réel pouvoir d'explication de la variable endogène*.

C'est particulièrement le cas lorsque les variables explicatives sont fortement corrélées entre-elles, et que le nombre d'observations (individus) est faible. A ce moment là, il existe une multitude de modèles possibles permettant de passer assez près du nuage de points, avec des combinaisons de coefficients très variables. Les coefficients associés au modèle « optimal » (celui retenu au sens des MCO) deviennent alors très instables, car une faible variation aléatoire des séries (on appelle cela « bruiter » les données) peut engendrer de fortes variations des coefficients, rendant par la même occasion le modèle presque impossible à interpréter dès lors que l'on prend en compte l'importance de l'instabilité des coefficients.

55

Le fait que le nombre d'individus soit faible aggrave ce phénomène de surparamétrage7 dans la mesure où un nombre d'individus qui n'est pas significativement supérieur au nombre de variables a tendance à engendrer un ajustement parfait ou quasi-parfait du modèle, qui bien sûr ne peut rendre compte du potentiel réel de prédiction du modèle (au-delà des individus actifs). On se retrouve donc, dans de pareilles circonstances, avec un modèle sur-ajusté, trop opportuniste car cherchant à tout prix à expliquer la variance de Y, au détriment des relations objectives liant Y aux autres variables individuellement, et, par la même occasion, au détriment de la stabilité des coefficients.

D'ailleurs, ces deux problèmes, à savoir multicolinéarité des variables et faiblesse du nombre d'individus, trouvent leur cas limite mathématiquement, puisqu'il est impossible de pratiquer une régression linéaire lorsqu'une des variables est combinaison linéaire des autres (c'est-à-dire qu'on assiste à la présence d'une relation linéaire exacte liant les variables, ce qui constitue en fait un cas extrême de corrélation des variables entre elles), et puisqu'il est également impossible de pratique une régression linéaire dès lors que le nombre d'individus devient inférieur au nombre de variables.

D'ailleurs, ces deux problèmes, à savoir multicolinéarité des variables et faiblesse du nombre d'individus, trouvent leur cas limite mathématiquement, puisqu'il est impossible de pratiquer une régression linéaire lorsqu'une des variables est combinaison linéaire des autres (c'est-à-dire qu'on assiste à la présence d'une relation linéaire exacte liant les variables, ce qui constitue en fait un cas extrême de corrélation des variables entre elles), et puisqu'il est également impossible de pratique une régression linéaire dès lors que le nombre d'individus devient inférieur au nombre de variables (si c'est le cas, il existe alors une infinité de combinaisons permettant d'atteindre un modèle expliquant 100% de la variance de Y).

La régression PLS, à l'étape 1 du moins, elle, ne souffre pas de ces problèmes. Elle isole les variables explicatives dans leur capacité à expliquer Y. On obtient ainsi un modèle décrivant une relation « factuelle », objective, entre Y et les variables explicatives, isolée de toute prise en compte des relations liant les variables explicatives entre elles.

La multicolinéarité n'est alors plus un problème car les coefficients ne sont pas influencés par les relations entre les variables explicatives. De même, on peut alors se permettre de travailler sur un échantillon où les individus sont inférieurs au nombre de variables explicatives, puisque tout ce qui importe est désormais de dégager les différentes covariances entre Y et les différentes variables explicatives, ce qui est toujours possible dès lors qu'il y a au moins 2 individus et que Y varie un minimum (une variable ne variant pas ne covarie pas non plus, et il est alors impossible de

~Le terme surparamétrage désignant un phénomène selon lequel le modèle tente de modéliser les fractions les moins objectives de l'ensemble formé par les variables explicatives. On peut simplifier cette assertion en disant qu'il y a surparamétrage dès lors que le modèle prend en compte les « erreurs » dans ses estimations.

s'exprimer quant aux relations qui régissent sa variance). Contrairement à la régression linéaire, cela nous donne un résultat unique.

Il y a donc deux choses qui, notamment en étant réunies, peuvent faire coïncider, plus ou moins fortement, les résultats de la régression linéaire et de la régression PLS à une seule étape :

- Un nombre considérable d'individus actifs en comparaison avec le nombre de variables actives.

- Une faible multicolinéarité des variables explicatives.

Un nombre important d'individus actifs a fortement tendance à réduire les possibilités de surparamétrage opportuniste de la régression linéaire. Il faut alors que le modèle détermine une relation capable d'expliquer l'ensemble du nuage de points, forcément d'autant plus représentatif d'une population globale que ne l'est un échantillon plus réduit. Les probabilités d'erreurs sont alors plus faibles. Les individus atypiques, au sein de l'échantillon, sont « noyés dans la masse », et ont d'ailleurs généralement tendance à se compenser. Dans ces conditions, il devient inutile, lorsqu'on cherche à minimiser la somme du carré des résidus, de s'attarder à expliquer des individus qui présentent des caractéristiques incompatibles avec « la moyenne », sous peine de voir l'ensemble des prévisions devenir complètement faussées.

Une faible multicolinéarité des variables explicatives fait mécaniquement converger les deux méthodes. La régression linéaire, qui normalement prend en compte les relations entre les variables explicatives, en devient réduite à obtenir un résultat similaire à celui d'une régression PLS à une étape (qui ne prend pas en compte ces relations), ces relations étant inexistantes.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous devons apprendre à vivre ensemble comme des frères sinon nous allons mourir tous ensemble comme des idiots"   Martin Luther King