Classe de Glivenko-Cantelli

De testwiki
Version datée du 30 juillet 2023 à 23:28 par imported>Sehidinan (growthexperiments-addlink-summary-summary:2|0|0)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Une classe de Glivenko-Cantelli est une classe de fonctions mesurables qui vérifie la convergence uniforme de la mesure empirique vers la mesure théorique. Il s'agit d'une généralisation du théorème de Glivenko-Cantelli (aussi appelé « théorème fondamental de la statistique ») à des classes de fonctions.

Définition

Soient des variables aléatoires (Xi)i* i.i.d. définies sur un espace de probabilité (Ω,𝒯,) à valeurs dans un espace mesurable (𝒳,𝒜) et une classe de fonctions mesurables de (𝒳,𝒜) à valeurs réelles. On dit que est une classe de Glivenko-Cantelli si elle vérifie la propriété

limn+||Pn(f)P(f)||=limn+supf|Pn(f)P(f)|=0,

avec Pn la mesure empirique indexée par et P=X la loi des Xi, i.e. P(f)=𝔼[f(X)]. Puisqu'une classe de Glivenko-Cantelli dépend de la mesure P, on peut dire en cas d'éventuelle confusion sur la loi que est une classe de P-Glivenko-Cantelli.

Conditions suffisantes

Condition avec l'entropie avec crochets

On note N[ ](,ε,d) le nombre de recouvrement avec crochets de la classe de rayon ε et avec la distance d. Toute classe vérifiant

ε>0,N[ ](,ε,L1(P))<+

est une classe de Glivenko-Cantelli[1].

Condition avec l'entropie

On note N(,ε,d) le nombre de recouvrements de par des boules de rayon ε avec la distance d. Supposons que vérifie pour une enveloppe de fonctions F intégrable,

ε>0,supQN(,ε||F||Q,1,L1(Q))<+

où le supremum est pris sur toutes les mesures de probabilité Q tel que ||F||Q,10. Alors est une classe de Glivenko-Cantelli[2].

Classe de Donsker

Modèle:Article détaillé

Une classe de fonctions mesurables à valeurs réelles

est appelée classe de Donsker si elle vérifie la convergence

αnn+𝔾 dans (),

avec

αn

le processus empirique indexé par la classe de fonctions

et

𝔾

le pont brownien indexé par

. Puisque

||PnP||=1n||αn||

, si

est une classe de Donsker alors c'est une classe de Glivenko-Cantelli.

Théorème de Glivenko-Cantelli

Modèle:Article détaillé Le théorème de Glivenko-Cantelli revient à dire que la classe des fonctions indicatrices ={x𝟏{xt}:t} est une classe de Glivenko-Cantelli. Ce théorème dit donc que la fonction de répartition empirique converge uniformément vers la fonction de répartition de la variable étudiée. Il existe plusieurs manières de démontrer ce théorème. On peut se ramener au cas des variables uniformes et démontrer la véracité de ce résultat dans ce cas (voir l'article Théorème de Glivenko-Cantelli). On utilise ici des méthodes combinatoires et des inégalités de concentration[3]. On notera |||| le supremum de la classe ={x𝟏{xt}:t}.

1ère étape : première symétrisation

On note

Pn

une copie indépendante de

Pn

, i.e. la mesure empirique basée sur une copie

X1,,Xn

indépendante de échantillon

X1,,Xn

. D'après le lemme de symétrisation,

n8ε2,(||PnP||>ε)2(||PnPn||>12ε).

2ème étape : seconde symétrisation

Soit σ1,,σn des variables de Rademacher, i.e. (σi=1)=(σi=1)=1/2. Les variables 𝟏{Xit}𝟏{Xit} ont la même distribution que σi(𝟏{Xit}𝟏{Xit}) (il suffit de considérer la distribution conditionnelle par rapport à σi). Alors

(||PnPn||>12ε)=(supt|n1i=1nσi(𝟏{Xit}𝟏{Xit})|>12ε)(supt|n1i=1nσi𝟏{Xit}|>14ε)+(supt|n1i=1nσi𝟏{Xit}|>14ε)

Si on note Pn la mesure signée définie par Pn(t)=n1i=1nσi𝟏{Xit} alors l'étape 1 on obtient désormais que

n8ε2,(||PnP||>ε)4(||Pn||>14ε).

3ème étape : inégalité maximale

Pour borner le membre de droite, on travaille conditionnellement aux observations X, le hasard provenant de σi. Conditionnellement aux X, le supremum ||Pn|| sera le maximum pris sur des intervalles bien choisis. Pour j=0,1,,n, on pose Ij=],tj] avec tj des réels choisis vérifiant t0<X1<t1<<tn1<Xn<tn. Ainsi,

(||Pn||>14ε|X1,,Xn)=(max0jn|Pn(Ij)|>14ε|X1,,Xn)j=0n(|Pn(Ij)|>14ε|X1,,Xn)(n+1)max0jn(|Pn(Ij)|>14ε|X1,,Xn)

4ème étape : borne exponentielle

D'après l'inégalité de Hoeffding appliquée aux variables σi𝟏{Xit} (qui sont à valeurs dans {1,1}),

(|Pn(Ij)|>14ε|X1,,Xn)2exp(2(nε/4)2i=1n4𝟏{Xit})2exp(nε232).

D'après l'inégalité précédente, (||Pn||>14ε|X1,,Xn)2(n+1)exp(nε232).

5ème étape : intégration

En appliquant l'espérance conditionnelle par rapport aux variables X1,,Xn, on obtient que (||PnP||>ε)8(n+1)exp(nε232). Par conséquent,

n1(||PnP||>ε)<+.

Le lemme de Borel-Cantelli permet de conclure.

Références

Modèle:Portail