WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Analyse en composantes principales de densités de probabilité estimées par la méthode du noyau

( Télécharger le fichier original )
par Smail Yousfi
Université Mouloud Mammeri de Tizi-Ouzou, Algérie - Magister 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

Le travail que nous avons effectué ici concerne essentiellement la présentation de l'approche d'estimation non paramétrique d'une ACP de densités, une approche qu'on peut toujours utiliser quelque soit la nature des données. Dans le cas d'une ACP non centrée et non normée, nous avons utilisé l'approche d'estimation de Kneip et Utikal 2001, pour améliorer la qualité de l'estimation des valeurs propres de la matrice des produits scalaires, dans le cas particulier oi les tailles d'échantillons sont identiques et des densités estimées par noyau en utilisant la même fenêtre de lissage. Ensuite, on a effectué une comparaison entre l'approche paramétrique et l'approche non paramétrique, nous avons alors remarqué, l'équivalence entre les deux approches d'estimations dans le cas de densités gaussiennes et de densités de Gumbel estimées. Dans le troisième chapitre nous avons étudié sur la base de 4 exemples, l'influence du noyau sur la qualité de l'estimation, et cela en considérant deux cas particuliers; le cas oi les densités sont estimées, par les différents noyaux, avec des erreurs quadratiques intégrées asymptotiques minimales. Le deuxième cas consiste a estimer. les densités en commettant les mêmes erreurs quadratiques intégrées asymptotiques suivant chaque noyau. Les résultats obtenus montrent que la qualité de l'estimation est indépendante du choix de ce noyau.

Après avoir choisi d'estimer les densités en utilisant une seule fenêtre de lissage, et en utilisant le résultat précédent, nous avons étudié sur la base de l'exemple de données gaussiennes simulées, l'influence et le choix de la fenêtre de lissage sur la qualité de l'estimation. Les résultats obtenus montrent que cette dernière est cruciale pour obtenir une bonne estimation de l'ACP théorique. Pour atteindre cet objectif, nous avons choisi de sélectionner la meilleure fenêtre qui consiste a minimiser globalement toutes les erreurs quadratiques intégrées asymptotiques, que nous avons notée hoptimal, ensuite nous avons comparé, en se basant sur les exemples du chapitre précédent,

les qualités d'estimations obtenues en utilisant cette fenêtre et celles obtenues en associant a chaque densité du nuage la fenêtre optimale au sens de l'AMISE. Les résultats obtenus sont très proches.

Cette fenêtre présente un avantage et un inconvénient. Son avantage réside dans le fait qu'elle simplifie les calculs et son inconvénient est le fait qu'elle dépend toujours des densités inconnues. Pour résoudre ce problème nous avons proposé en utilisant l'approche d'estimation de Park et Marron, 1990 de remplacer les densités dans la formule de hoptimal en utilisant un modèle paramétrique approprié.

Observons maintenant les données traitées par la méthode proposée (ACP de densités) oi dans chaque lot (tableau) nous disposons de mesures d'une variable quantitative. Regardons maintenant le cas oi on dispose a la fois des mesures d'une variable quantitative (continue) et d'une variable qualitative ( discrète), est-il alors possible de développer une analyse factorielle comme celle présentée auparavant permettant d'obtenir une analyse globale de ce type de données et quelle est l'interprétation qu'on peut donner aux différents facteurs?

Essentiellement cela consiste a définir une mesure d'affinité entre deux densités de probabilités comme celle définie dans le chapitre 1, qui sont les densités conjointes d'un vecteur aléatoire quantitatif (continu) X et d'un vecteur aléatoire qualitatif (discret) Y, ainsi une méthode d'estimation en utilisant les données précédentes. Ce travail nécessite d'introduire des hypothèses supplémentaire sur la nature des données, comme la normalité du vecteur aléatoire conditionnel X/Y.

Le modèle appelé ' location model ' introduit par Olkin et Tate (1961), généralisé ensuite par Krzanoswki (1983) sous le nom ' General location model ' est de loin le modèle statistique le plus recommander pour ce type de problème. En se basant sur l'affinité de Bhattacharyya (1943), Krzanoswki a défini une mesure d'affinité entre deux populations sur lequelles sont mesuré p caractères quantitatifs et r caractères qualitatifs.

En utilisant cette mesure d'affinité ou éventuellement en définissant d'autres mesures en conservant l'hypothèse de normalité, on peut développer une analyse factorielle a la manière présentée dans le premier chapitre, par conséquent une analyse en composantes principales sur les densités conjointes des vecteurs aléatoires quantitatifs (continu) et qualitatifs (discret), et une

méthode d'estimation de ces densités, en utilisant soit une approche paramétrique ( Krzanowski, 1983) soit une approche non paramétrique, en adoptant les différents résultats de ce travail a cette situation. Des questions auxquelles nous souhaitons répondre dans le cadre de travaux a venir.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"I don't believe we shall ever have a good money again before we take the thing out of the hand of governments. We can't take it violently, out of the hands of governments, all we can do is by some sly roundabout way introduce something that they can't stop ..."   Friedrich Hayek (1899-1992) en 1984