WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

sommaire suivant

DECREMER Renaud

Université Paul Verlaine de Metz

UFR Droit, Economie, Administration

Mémoire de M1 en Sciences Economiques

Sous la direction de Monsieur Philippe CASIN

« L'université Paul Verlaine de METZ

n'entend donner ni approbation, ni

improbation aux opinions émises dans ce

mémoire. Celles-ci doivent être considérées

comme personnelles à son auteur. »

PREFACE ET REMERCIEMENTS

Cette partie a vocation à retranscrire brièvement la manière dont le mémoire a vu le jour ainsi que mes impressions personnelles avant, pendant, et après la réalisation de ce dernier. Si seul le sujet en lui-même vous intéresse, vous pouvez sans problème passer outre cette partie et vous rendre directement au sommaire.

Le mémoire, pour un étudiant de master, constitue probablement, dans la majorité des cas, le travail le plus abouti, le plus long, le plus complexe, le plus intéressant et le plus personnel auquel il n'a jamais eu l'occasion de prendre part. C'est bien entendu mon cas, et c'est pour cela que je tiens à m'exprimer sur le déroulement de celui-ci.

Il est important de rappeler que le mémoire constitue un choix pour un étudiant, dans la mesure où celui-ci est libre de choisir le sujet qui lui convient le mieux parmi ceux qui lui sont proposés. Mon choix s'est porté sur ce sujet (la régression PLS), pour plusieurs raisons. La première est que j'ai toujours été attiré par l'analyse de données, les statistiques, et les chiffres en général. Mais bien que ce domaine me fascine, il m'a, à plusieurs reprises, posé des problèmes (difficultés de compréhension notamment) tout au long de mon cursus. J'ai donc tenu, en choisissant ce sujet, à essayer de renverser certaines de ses difficultés, d'autant plus que je pense être amené à me spécialiser en Expertise Statistique dans le cadre de la dernière année de ma filière. Il était donc très important, à ce titre, pour moi, de réaliser par moi-même un travail où je puisse développer ma propre approche, à partir des éléments avec lesquels j'étais à l'aise, d'un sujet qui m'était jusqu'alors inconnu, et qu'il allait falloir comprendre par moi-même, avec pour seule aide les diverses recherches que j'allais devoir mener, et quelques explications venant de la part du responsable du sujet que j'ai choisi. C'est dans ce contexte que le choix d'un tel sujet m'est apparu comme étant la meilleure solution. Bien entendu, il est évident que le choix de ce sujet ne s'est pas fait sans tenir compte d'autres facteurs, notamment l'imposante demande, de la part des autres étudiants, pour certains sujets faisant une plus grande unanimité, n'ayant pas trait au domaine de l'analyse de données. Il était alors évident que mon choix allait se porter sur ce sujet.

Le sujet étant choisi, j'ai eu toute liberté pour mener ce travail dans la direction qui me convenait le mieux. J'ai alors décidé d'adopter la démarche qui est généralement la mienne lorsque je suis amené à traiter un sujet auquel je ne suis pas encore familiarisé, à savoir celle qui consiste à « comprendre pour expliquer ». Je pense que certains étudiants auraient abordé ce mémoire en lançant un maximum de recherches sur le sujet, en faisant un immense effort de synthèse et de réorganisation des idées, et en retranscrivant, dans une formulation qui leur est plus ou moins propre, le compte- rendu de leurs recherches. Cela n'a pas été ma démarche, car un tel effort ne m'aurait pas permis d'approfondir à ma guise ma connaissance du sujet. J'ai donc effectué un certain nombre, limité, de recherches, sans chercher à me documenter de manière exhaustive. Le but n'était pas de réunir tous les ouvrages accessibles traitant du sujet,

mais simplement de trouver une base de réflexion me permettant de situer le sujet, et de me renseigner sur ses principaux enjeux. Par la suite, le travail de recherche a pris une proportion très marginale par rapport au travail de réflexion personnelle, car c'est avant tout ce travail qui m'a permis d'avancer dans ce mémoire. C'est ce travail qui m'a donné la possibilité de vérifier que l'enjeu de la méthode était bien réel, et ne se justifiait pas qu'à travers les dires des auteurs qui ont eu le loisir de s'y intéresser.

Le lecteur que vous êtes notera assez rapidement et aisément que mon approche fut assez littéraire. En effet, selon moi, les diverses formules et propriétés mathématiques ne trouvent leur sens qu'en tant qu'outil permettant de raisonner et de tirer des conclusions, qui doivent rester compréhensibles par la majorité, et donc littéraires. De plus, de très nombreux travaux ayant déjà été menés sur ce sujet, il était inutile de se focaliser sur les formules et les démonstrations mathématiques, auxquelles je ne pouvais, personnellement, rien apporter. J'ai donc simplement retranscrit les formules à la base de la méthode, principalement en utilisant les notations de l'ouvrage de Michel Tenenhaus (« La Régression PLS -- Théorie et Pratique »), qui d'ailleurs fut l'ouvrage central autour duquel s'est construit mon mémoire, sans pour autant lui avoir emprunté une part très importante de contenu (exception de la brève présentation historique du sujet faite en tout début de première partie, et de la faite démonstration sur l'indépendance des composantes PLS). J'ai donc tâché de rester le plus littéraire et le plus compréhensible possible, afin ceux qui n'ont que des connaissances limitées en statistiques (dont je fais partie) puissent décemment comprendre ce la majorité de ce qu'ils pourront lire dans ce mémoire, et se familiariser avec les notions les plus importante de celui-ci. Si mon approche avait été trop mathématisée, ou trop complexe, je n'aurais pas pu prétendre avoir apporté quoi que ce soit au lecteur, car je n'aurais fait que rendre compte des travaux de personnes nettement plus connues, expérimentées et très probablement plus compétentes que moi, et j'aurais été incapable de me retrouver dans ce mémoire, pas plus que je n'aurais été capable de comprendre et de m'imprégner de la plupart des notions que j'aurais été amené à utiliser.

Bien entendu, cela ne m'a pas empêché d'évoquer les formules dont sont issues les composantes de la régression PLS, ni d'évoquer certaines propriétés mathématiques de l'analyse, parfois sous forme de formules, car il aurait été déplacé de parler d'un sujet dont les fondements (les formules mathématiques) ne sont pas abordés. Aussi, je n'ai pas la prétention d'affirmer qu'un lecteur n'ayant aucune notion statistique sera capable de suivre l'intégralité des raisonnements qui sont développés tout au long de ce mémoire (que ce soit dans les parties mathématiques ou dans les parties littéraires). Néanmoins, je garde l'espoir qu'elles puissent trouver, dans ce mémoire, une présentation plus abordable de la méthode et de son utilité, que ce qu'il est généralement coutume de rencontrer dans la plupart des travaux traitants du sujet (que ce soit dans les livres ou sur internet).

Etant donné l'approche utilisée pour réaliser ce travail, il m'a été très difficile d'établir un plan dès le départ. Plusieurs idées me sont venues à l'esprit, mais il m'était pratiquement impossible de retenir un plan qui soit trop précis avant d'avoir abordé les différents aspects que je tenais à traiter. C'est pour cela que le plan a beaucoup évolué (sans jamais avoir existé dans une version qui soit un tant soit peu détaillée) jusqu'à ce que le mémoire ne soit terminé, car sa structure dépendait de l'évolution de ma perception du sujet, elle-même conditionnée par l'avancée de ce mémoire. C'est notamment pourquoi, pendant longtemps, j'ai pensé intégrer à ce mémoire une partie « Application à la réalité », faisant la démonstration d'une utilisation de la régression PLS sur un jeu de données réelles, avant d'avoir l'idée, qui m'a semblée plus intéressante, de créer une partie « Simulations », faisant elle aussi la démonstration d'une utilisation de la méthode, mais sur données fictives, créées de toutes pièces à l'aide de Microsoft Excel 2003 et de sa fonction permettant de générer une composante aléatoire. Au départ, je ne souhaitais pas que la partie « Simulations » écarte totalement la partie « Application à la réalité », mais la différence d'intérêt entre les deux méthodes, combinée au fait que le mémoire devait toucher à sa fin (pour des raisons de temps), a fait que j'ai préféré totalement délaisser cette idée initiale, pour ne pas risquer de compromettre l'intérêt de celle que j'ai finalement décidé de retenir. Naturellement, j'aurais souhaité que cette partie soit tout de même intégrée à ce mémoire, mais elle ne m'aurait que très difficilement permis de me prononcer sur l'efficacité de la méthode, sauf à disposer de suffisamment de données que pour être en mesure de former une population mère, sur laquelle j'aurais pu testé les qualités de prédictions des modèles établis sur base d'un échantillon réduit de cette population. Mais même si tel avait été le cas, je n'aurais que très difficilement pu disposer de données desquelles j'étais suffisamment informé des propriétés que pour pouvoir tirer des conclusions générales sur l'efficacité de la méthode, et sur les meilleures conditions d'efficacité de celle-ci. Dans une certaine mesure, les différentes simulations que j'ai pu mener lors des différents tests m'ont permis d'isoler l'influence de certains facteurs, et de tenter des conclusions sur l'impact de ces derniers sur l'efficacité de la méthode. Voila pourquoi j'ai privilégié cette partie.

Le fait de ne pas avoir pu intégrer cette partie « Application à la réalité » constitue mon plus grand regret, car le but de toute méthode statistique reste probablement de pouvoir servir dans un cadre réel, le contraire leur enlevant tout intérêt. De ce point de vue, une application sur des séries réelles, dans le but de modéliser des relations liant des variables réelles, est nettement moins abstraite que ne le seront jamais des données fictives, ce qui aurait pu être plus parlant aux yeux de certains lecteurs.

Ce n'est pas mon seul regret. J'aurais également aimé pouvoir approfondir les tests, en faire davantage, et faire davantage de simulations pour chaque test, afin qu'en ressortent des conclusions plus précises, plus ciblées, plus exhaustives. Toutefois, je n'aurais pas souhaité que ce soit au prix d'une transparence amoindries des simulations réalisées, qui ont été volontairement très détaillées.

Je regrette également de ne pas avoir évoqué le cas de la régression PLS multivariée (c'est-à-dire : avec de multiples variables expliquées), ou encore de ne pas avoir traité le cas de la régression PLS avec présence de données manquantes. Ces deux cas existent pourtant et représentent deux avantages considérables de cette méthode.

Toutefois, il faut garder à l'esprit que ces divers approfondissements auraient probablement rendu le mémoire nettement moins compréhensible, et nettement plus fastidieux à aborder dans son intégralité.

Finalement, je m'estime satisfait de ce mémoire, à plusieurs titres. Il m'a tout d'abord permis d'améliorer ma compréhension générale du domaine statistique, et plus particulièrement ma compréhension du sujet. Ensuite, le travail qu'il a nécessité m'a permis d'améliorer ma méthode de travail, ma capacité à m'organiser, à gérer le facteur temps, à mieux cerner les qualités et les défauts inhérents à ma manière de travailler, et à mener à bien un travail de plus grande ampleur que ceux que j'ai pu connaître jusqu'à présent. Il m'a également permis de m'épanouir à travers une démarche personnelle, et donc adaptée à moi-même, me permettant par la même occasion d'aborder les aspects du sujet auxquels je suis le plus sensible.

J'en viens donc à la fin de ce préambule et j'en profite pour remercier ceux qui ont, directement ou indirectement, contribué à ce mémoire. La première personne qui me vient à l'esprit est Monsieur Philippe Casin, maître de conférence dans ma faculté (UFR Droit, Economie et Administration de l'université Paul Verlaine de Metz), et responsable de la direction de ce mémoire (et à l'origine de la présence du sujet parmi les sujets disponibles). Son aide, ses conseils et indications m'ont notamment permis de mieux cerner le sujet et d'en déduire l'orientation que je souhaitais lui donner. Je remercie également Christine Stachowiak, également enseignante de ma faculté et responsable méthodologique des mémoires de ma promotion. Je remercie ces deux professeurs à la fois pour leur apport au mémoire, mais également pour leurs enseignements auxquels j'ai pu assister. D'autres professeurs me viennent également à l'esprit, dans la mesure où ils m'ont permis d'acquérir certaines connaissances mathématiques (ou autres ayant servi à ce mémoire) et m'ont permis de maitriser certaines notions. Je remercie donc, de manière générale, tous les professeurs dont j'ai pu assister aux cours, plus particulièrement Monsieur François Marque (enseignant en mathématiques, statistiques, et informatique), Monsieur Marius Marchal (enseignant en mathématiques et statistiques) et Monsieur Pierre Morin (enseignant en Macroéconomie appliquée, et ayant eu la délicatesse d'expliquer efficacement la signification de certaines statistiques utilisées dans le cadre des différents modèles économétriques vu en cours).

Bien entendu, je ne pourrais conclure cette section sans citer Michel Tenenhaus, omniprésent et incontournable s'agissant de la régression PLS, et dont l'ouvrage (évoqué plus haut) m'aura permis de disposer d'une base solide de réflexion. J'en remercie donc l'auteur, en saluant l'exhaustivité dont il a su faire preuve.

sommaire suivant