Memoire Online - Analyse en composantes principales de densités de probabilité estimées par la méthode du noyau

Conclusion

Le travail _que nous avons effectué ici concerne essentiellement la présentation de l'approche d'estimation non paramétri_que d'une ACP de densités, une approche _qu'on peut toujours utiliser _quel_que soit la nature des données. Dans le cas d'une ACP non centrée et non normée, nous avons utilisé l'approche d'estimation de Kneip et Utikal 2001, pour améliorer la _qualité de l'estimation des valeurs propres de la matrice des produits scalaires, dans le cas particulier oi les tailles d'échantillons sont identi_ques et des densités estimées par no_yau en utilisant la même fenêtre de lissa_ge. Ensuite, on a effectué une comparaison entre l'approche paramétri_que et l'approche non paramétri_que, nous avons alors remar_qué, l'é_quivalence entre les deux approches d'estimations dans le cas de densités _gaussiennes et de densités de Gumbel estimées. Dans le troisième chapitre nous avons étudié sur la base de 4 exemples, l'influence du no_yau sur la _qualité de l'estimation, et cela en considérant deux cas particuliers_; le cas oi les densités sont estimées, par les différents no_yaux, avec des erreurs _quadrati_ques inté_grées as_ymptoti_ques minimales. Le deuxième cas consiste a estimer. les densités en commettant les mêmes erreurs _quadrati_ques inté_grées as_ymptoti_ques suivant cha_que no_yau. Les résultats obtenus montrent _que la _qualité de l'estimation est indépendante du choix de ce no_yau.

Après avoir choisi d'estimer les densités en utilisant une seule fenêtre de lissa_ge, et en utilisant le résultat précédent, nous avons étudié sur la base de l'exemple de données _gaussiennes simulées, l'influence et le choix de la fenêtre de lissa_ge sur la _qualité de l'estimation. Les résultats obtenus montrent _que cette dernière est cruciale pour obtenir une bonne estimation de l'ACP théori_que. Pour atteindre cet objectif, nous avons choisi de sélectionner la meilleure fenêtre _qui consiste a minimiser _globalement toutes les erreurs _quadrati_ques inté_grées as_ymptoti_ques, _que nous avons notée _hoptimal, ensuite nous avons comparé, en se basant sur les exemples du chapitre précédent,

les _qualités d'estimations obtenues en utilisant cette fenêtre et celles obtenues en associant a cha_que densité du nua_ge la fenêtre optimale au sens de l'AMISE. Les résultats obtenus sont très proches.

Cette fenêtre présente un avanta_ge et un inconvénient. Son avanta_ge réside dans le fait _qu'elle simplifie les calculs et son inconvénient est le fait _qu'elle dépend toujours des densités inconnues. Pour résoudre ce problème nous avons proposé en utilisant l'approche d'estimation de Park et Marron, 1990 de remplacer les densités dans la formule de hoptimal en utilisant un modèle paramétri_que approprié.

Observons maintenant les données traitées par la méthode proposée (ACP de densités) oi dans cha_que lot (tableau) nous disposons de mesures d'une variable _quantitative. Re_gardons maintenant le cas oi on dispose a la fois des mesures d'une variable _quantitative (continue) et d'une variable _qualitative ( discrète), est-il alors possible de développer une anal_yse factorielle comme celle présentée auparavant permettant d'obtenir une anal_yse _globale de ce t_ype de données et _quelle est l'interprétation _qu'on peut donner aux différents facteurs?

Essentiellement cela consiste a définir une mesure d'affinité entre deux densités de probabilités comme celle définie dans le chapitre 1, _qui sont les densités conjointes d'un vecteur aléatoire _quantitatif (continu) X et d'un vecteur aléatoire _qualitatif (discret) Y, ainsi une méthode d'estimation en utilisant les données précédentes. Ce travail nécessite d'introduire des h_ypothèses supplémentaire sur la nature des données, comme la normalité du vecteur aléatoire conditionnel X/Y.

Le modèle appelé ' location model ' introduit par Olkin et Tate (1961), _généralisé ensuite par Krzanoswki (1983) sous le nom ' General location model ' est de loin le modèle statisti_que le plus recommander pour ce t_ype de problème. En se basant sur l'affinité de Bhattachar_yya (1943), Krzanoswki a défini une mesure d'affinité entre deux populations sur le_quelles sont mesuré p caractères _quantitatifs et r caractères _qualitatifs.

En utilisant cette mesure d'affinité ou éventuellement en définissant d'autres mesures en conservant l'h_ypothèse de normalité, on peut développer une anal_yse factorielle a la manière présentée dans le premier chapitre, par consé_quent une anal_yse en composantes principales sur les densités conjointes des vecteurs aléatoires _quantitatifs (continu) et _qualitatifs (discret), et une

méthode d'estimation de ces densités, en utilisant soit une approche paramétri_que ( Krzanowski, 1983) soit une approche non paramétri_que, en adoptant les différents résultats de ce travail a cette situation. Des _questions aux_quelles nous souhaitons répondre dans le cadre de travaux a venir.

"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..." Friedrich Hayek (1899-1992) en 1984