WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Estimation non-paramétrique par noyaux associés et données de panel en marketing

( Télécharger le fichier original )
par Imen Ben Khalifa
Ecole Supérieure de la Statistique et de l'Analyse de l'Information - Ingénieur en statistique et analyse de l'information 2008
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.1.7 Choix de fenetres

a. Importance du choix de h

Le parametre de lissage h est un réel positif dont le choix est prépondérant sur celui du noyau continu symétrique K. Le choix d'une valeur de h trop grande conduit a une courbe trop lisse. La courbe estimée ne traduit pas suffisament les variations de la vraie distribution (voir figure 2.3).

FIG. 2.3???str?t?? ???? ??e??e?? ?? s?s???ss??? ?rs ?? ??et???t?? ????? ???n?it

Ep/0/ch0-

RIM .

 

-2 -1 0 1 2 3

x

Par contre, en choisissant un parametre de lissage tres petit que celui adopté précédemment, l'allure de la distribution change. Il sagit dune distribution surestimé (figure 2.4).

FIG. 2.4 -- ???str?t?? ???? ??e??e?? ?? s?r???ss??? ?rs ?? ??st???t?? ????? ???n?it

Ep/0/ch0-

D..

-2 -1 0 1 2 3

x

ment la distribution de depart (figure 2.5). Les courbes obtenues illustrent a quel point
FIG. 2.5 -- Illustration d'une estimation ideale

Ep/0/00-

RI.

-2 -1 0 1 2 3

x

les formes estimees sont differentes en fonction de lordre de grandeur du paramètre de lissage. La principale difculte repose sur le choix optimal de la fenetre h. La valeur ideale hid du parametre h est celle qui minimise l'erreur quadratique moyenne integree (MISE). Pour une taille d'echantillon n donnée et un noyau K fixe, nous avons

?h

? AMISE(h) = 0.

Ce qui est equivalent a

h3V (K)2 I f" (x)2dx 1 2 jali K(t)2dt = 0.

nh

Ainsi, nous obtenons successivement

nh5V (K)2 ff" (x)2dx = K(t)2dt R

h5 = nV (K)2 fR f"(x)2dx

fR K(t)2dt

1 I fR K(t)2dt11/5

hid = v .

V(K)2 fR f" (x)2dx (2.13)

En particulier pour K = KEpanechn., nous avons

~ 15 \1/5

hid(KEpanechn.) =

n R .

R f"(x)2dx

En definitive, a partir de (2.13), nous obtenons

2/5 4/5 11/5

5 1

AMISE(hid) =

L,Rt2K(t)dt1 { K(t)2dt1 { f" (x)2dx

4 n4/5 R R

51/5

4n4/5 I(K) fR f"(x)2 dx }

avec

~Z ~2/5 ~Z ~4/5

I(K) = t2K(t)dt K(t)2dt .

R R

Conséquences: Quand n est grand, hid tend vers 0. Le parametre de lissage h idéal dépendenfaitdeladensitéatravers f".Ainsipourun hpetit,nousavonsunpetitbiais et une variance plus grande. Le noyau optimal est obtenu en minimisant R R K(t)2dt, ceci en admettant les hypotheses (2.4) et (25).

b. Méthodes de choix de fenêtres

Nous considéronss donce avec plus d'intérêtt la question de selection du parametree de lissage h. Comme fenêtree optimale, nous choisissons la valeur qui minimis lee MISE.

Nous étudions trois méthodes dans la déterminationn du parametre d lissagee optimalhopt:: le "Plug-in", la validation croisée par moindres carrés e laa validation croisée par maximum de vraisemblance.e

b.1. Mahodee Plng-inn

Dans la procéduree de Plug-in,l'idée& de base est destimerr dan lexpressionn (2.13) la quantité inconnue: : fR f"(x)2dx. En effet, ilt y a deux approches possibles pou leefaire:: soit nous supposons que la densité f appartient a une famille de distributions

paramétriques et la nous estimons les parametres et nous retrouvon facilement cette cette quantité, soit nous l'estimons par lapprochee non-paramétrique et donce faire appel a un estimateur a noyau (par exemple). Ceci va compliquer davantag less calculs parceque nous trouvons une fonction qui dépendd elle même de h. Donc,, en gros, la méthode Plug-in résidee a "injecter" une estimation de f en adoptant une méthode commode et pratique. Dans notre étude,, nous supposons que f(x) appartient a une famille de distribution normale centrée et de variance ó2..

Sous cette hypothese::

ZR R f"(x)2dx =88 0r33 ó-1/550.212ó-1/5..

Il reste alors a remplacer le parametre inconnu óa par la valeur estiméee bó.. Nous choisissons la valeur empirique comme valeur optimale définiee comme suit

1

=

n -- 1

Xn
i=1i

tu u v

(Xii -- X~2,,

tel que XX = n-11 (X1 + X2 + .
· .
· .
· + Xn).

=

(4ð)-1/10

~

1

8ð-1/2 bó

~ ~3 ~-1/5

n1/5 5

Le résultatt obtenu sera remplacée dans la formule de hid et nous avons

hopt

(4bó55~1/5

= 3n ~ bó)= =1.06 6n1/55)

Ce que nous avons accompli en travaillant sous la supposition de la normalité estest une formule explicite applicable pour la selection de la fenetre h. En réalité, cette méthode donne des résultats raisonnables pour toute les distributions symétriques, unimodales et ne possédant pas des queues trop lourdes Le probleme donc avec cette méthode est qu'elle est tres sensible aux valeurs aberrantes. Un estimateur plus robuste dans ce cas est obtenu a partir de l'intervalle interquartile : R =

X[0.75n] - X[0.25n] o1 Xp

désignelequantiled'ordrepd'une N (u,ó2).Ladifférenceentrecesdeuxquartilesdonne 50% de l'ensemble des observations. En supposant toujours que X suit une normale N(u,ó2), nous posons Z = (X - u)/ó qui suit une N(0,1). Ainsi, nous montrons que (X[0.75n] -X[0.250 = 1.34ó Par conséquent, un estimateur puissant de ó serait Q = R/(1.34). Dans ce cas, le parametre de lissage optimal est donné par

~ hopt = 1.06 1R.34 n-1/5 0.796n-1/5. Enfin, la fenetre optimale est

hopt = 1.06 min bó,

1.34
R

n-1/5

.

Cette méthode présente des inconvénients : si la vraie densité f devie substantiellement delaformed'unedistributionnormale(enétantmultimodalparexemple)nouspouvons etre trompés considérablement et nous aurons soit un sur-lissage soit un sous-lissage.

b.2. Methode de validation croisee par ioindres carrés

Pour un noyau fixé K, le principe de la validation croisée est la minimisation destimateur de risque intégré (MISE) par rapport a h. En effet, Le MISE dépend de la fonction inconnue f et ne peut donc pas etre calculé. Nous allons essayer de remplacer la MISE par une fonction de h, mesurable par rapport a l'échantillon et dont la valeur pour chaque h > 0, est un estimateur sans biais de MISE(h). Pour cela, notons que :

MISE(h) = E f {:fn(x) - f (x)}2 dx

= E f

R Tfii(x)2dx - 2E 1 fn(x) f (x)dx + IR f2 (x)dx

Le dernier terme ne dépend pas de h, pour minimiser MISE(h) il suffit de minimiser l'expression :

J(h) = E f fn(x)2dx - 2E 1 fn(x) f (x)dx.

Pour cela, nous déterminons un estimateur des deux termes de J(h). Le premier terme

JR

fn(x)2dx comme estimateur trivial (d'apres la propriété des esti-

b

admet l'estimateur

mateurs sans biais : E(bâ) = â).

Il reste a trouver un estimateur sans biais du second terme. Pour cela, nous admettons par construction l'estimateur sans biais G défini en tout points du support sauf en Xi :

Gb =1

n

Xn
i=1

bfn,-i(Xi),

avec

bfn,-i(x) = 1

n - 1

1 X h

i6=j

(x - Xi ~

K .

h

Montrons que E( bG) = E{fR bfn(x)f(x)dx}. Comme les Xi sont i.i.d., d'une part nous avons

~Z ~ Z ~

Xn ~x - Xi

1

E bfn(x)f(x)dx = E K f(x)dx

nh h

R R

i=1

Z ~x - X1 ~

1 hE K f(x)dx

h

R

Z Z ~x - x1 ~

1 f(x) K f(x1)dx1dx.

h h

R R

D'autre part, nous avons

E(

= E {n1

i=1

= E{In,-1(X1)}

= E

? ?

?

~Xj - X1 ~?

1 X ?

K

(n - 1)h h ?

j6=1

~ 1 ~X - X1 ~~ = E hK h

Z Z ~x - x1 ~

1 f(x) K f(x1)dx1dx

h h

R R

Z

= E bfn(x)f(x)dx.

R

Donc, Gb est un estimateur sans biais de fR biais de J(h) est donne par

b

fn(x)f(x)dx. Finalement, l'estimateur sans

CV (h) = fn(x)2 dx - 2 E bfn,-i(Xi).

n

Ri=1

Et la fenetre optimale est telle que

hCV = arg min

h>0

CV (h).

???? ?et??? ?? ??????t?? ?r?sé? ??r ??\u9312‡@???? ?? ?r??s????????

et l'estimateur a noyau

fn s'écrit:

D(f , jn) = fRf(x) log { j.f.:(xx)) dx

= IR f (x) log f (x)dx - IR f (x)log { rn(x)} dx

= E [log { f (X)}] - E [log {fn(X) }1 .

b

L'idée de la validation croisée par vraisemblance est de minimiser D(f,

fn). Toutefois,

cette distance n'est pas métrique et les critères définis en la minimisant ne sont pas ap-

b

propriés pour obtenir un lissage adéquat. Donc minimiser D(f, fn) revient a maximiser

E [log {fn(X)}1. Ainsi, la fenetre optimale est

LCV (h),

hLCV = arg max

h>0

oU

.

LCV (h) = E [log {fn(X)}]

Par construction, nous avons l'estimateur sans biais de LCV (h):

1

Jn = n

Xn
i=1

n o

log bfn,-i(Xi|h) ,

oU

1

bfn,-i(Xi|h) = (

~Xi - Xj ~

X

K

n - 1)h h

i6=j

n

Montrons que E(Jn) = E h oi.

log bfn(X)

Comme les variables aléatoires X1,X2, . . . ,Xn sont i.i.d., d'une part nous obtenons

" o#

Xn n

1

E(Jn) = E log bfn,-i(Xi|h)

n

i=1

h n oi

= E log bfn,-1(X1|h)

?

= E ?log

?

?

?

?

~X1 - Xj ~? ?

1 X K ?

(n - 1)h h ?

j6=1

= E [log { h 1 K X 1 h X2

D'autre part, nous trouvons

" ( ~)#

h n oi Xn ~X - Xi

1

E log bfn(X) = E log K

nh h

i=1

= E [log { h1 K (X - hX )11

= E(Jn).

Enfin, la fenêtre optimale obtenue par la méthode de validation croisée par vraisemblance se calcule a partir de :

" 1 n

hLCV = arg max log { fn,_i (Xi | h) }1.

h>0 n

i=1

Cependant, cet estimateur est très sensible aux valeurs aberrantes. Sa diiculté apparait lorsque la méthode est appliquée a des observations dont la distribution présente de grandes queues. Les points situés dans les queues de la distribution a estimer ont des valeurs faibles, ce qui implique de faibles valeurs des estimations correspondantes. La présence de l'opérateur log dans l'expression de l'estimateur pose un problème de convergence pour les valeurs de densités aux queues. Par conséquent, il estest diicile dans ce cas de choisir hLCV de facon optimale, puisque l'on risque soit le sur-lissage soit une trop grande erreur sur les queues.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le doute est le commencement de la sagesse"   Aristote