Processus empirique

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Ébauche Modèle:Infobox Méthode scientifique

En probabilités, le processus empirique est un processus stochastique qui s'exprime en fonction de la proportion d'objets appartenant à un certain ensemble. Ce processus fait intervenir les déviations d'une statistique autour de sa moyenne et sera donc utile dans l'étude de la plupart d'entre elles.

Définition

Si X1,,Xn sont des variables aléatoires réelles indépendantes et identiquement distribuées (i.i.d.) ayant pour fonction de répartition F alors on définit le processus empirique réel αnX par

αnX(t)=n(Fn(t)F(t))=1ni=1n(𝟏{Xit}F(t))

Fn(t)=1ni=1n𝟏{Xit} est la fonction de répartition empirique associée à l'échantillon X1,,Xn. Il est possible de généraliser cette définition au cas où le processus empirique serait indexé par une classe de fonctions mesurables définies sur un espace 𝒳 et à valeurs réelles. Si les Xi sont i.i.d à valeurs dans un espace 𝒳 et f:𝒳 est une fonction mesurable, alors on définit αnX par :

f,αnX(f)=1ni=1n(f(Xi)𝔼[f(Xi)].

On retombe en particulier sur la première définition quand on prend la classe des fonctions indicatrices ={x𝟏{xt}:t}. Il est également possible de définir le processus empirique indexé par des classes de fonctions via la mesure empirique Pn(f)=1ni=1f(Xi) et la mesure des X, P(f)=𝔼[f(X)] :

n,αnX=n(PnP).

Quand le contexte est clair, on peut noter le processus empirique αnX par αn.

Convergence

D'après le théorème de Donsker, le processus empirique converge vers un pont brownien dans l'espace de Skorokhod, c'est-à-dire un processus (Gt)t[0,1] gaussien centré dont la fonction de covariance est donnée par

0s<t1,Cov(Gt,Gs)=𝔼[GtGs]=s(1t).

Pour généraliser ce résultat dans le cas où l'on travaille avec le processus indexé par une classe de fonctions, on appelle classe de Donsker toute classe de fonctions L2(𝒳,𝒜,P) de fonctions mesurables à valeurs réelles vérifiant

αnn+𝔾 dans ()

𝔾 est un processus de P-pont brownien, c'est-à-dire un processus gaussien centré dont la covariance vérifie ici

f,g,,𝔼[𝔾f𝔾g]=𝔼[f(X)g(X)]𝔼[f(X)]𝔼[g(X)].

Le théorème de Donsker revient à dire que la classe des fonctions indicatrices est une classe de Donsker.

Approximation forte

Modèle:Article détailléL'approximation forte consiste à créer un espace convenable sur lequel des objets théorique comme la somme partielle de variables aléatoires i.i.d. ou le processus empirique sera proche de sa limite. Il existe plusieurs résultats concernant le processus empirique. Brillinger montre en 1969[1] qu'on peut créer un espace sur lequel le processus empirique sera proche presque-sûrement du pont brownien avec une borne de O(n1/4(logn)1/2(loglogn)1/4).

Quelques années plus tard émerge la meilleure borne proposée par Komlós, Tusnády et Major[2]Modèle:,[3]. Le théorème d'approximation KMT approche le processus empirique du pont brownien avec une borne en O(n1/2logn).

Il existe d'autres résultats où on approche le processus empirique par un processus de Kiefer avec une borne en O(n1/3logn)2/3) qui fut amélioré par le théorème d'approximation KMT avec une borne en O(log2n). Berthet et Mason montrèrent en 2006 qu'il est également possible d'approcher le processus empirique indexé par une classe de fonctions par le pont brownien indexé par cette même classe si cette dernière vérifie certaines conditions d'entropie[4].

Transformation du processus empirique

Soient U1,,Un des variables i.i.d. de loi uniforme sur [0,1] et X une variable de fonction de répartition F. Alors

n*,αnU=αnXF(U),[5]

F est la fonction de quantile (ou fonction de répartition inverse généralisée) définie par

u]0,1[,F(u)=inf{x:F(x)>u}.

De plus, si F est continue alors

n*,αnX=αnUF(X).[6]

Références

Modèle:Portail