Mesure empirique

De testwiki
Aller à la navigation Aller à la recherche

En probabilité, la mesure empirique est une mesure aléatoire calculée à partir de la réalisation d'un échantillon, c'est-à-dire de la réalisation d'une séquence de variables aléatoires. Cette notion est très utilisée en statistique. La motivation principale de l'étude de cette mesure vient du fait qu'elle nous permet de connaître la mesure de probabilité réelle P qui est inconnue. Les théorèmes concernant les processus empiriques permettent de donner les vitesses de convergence de cette mesure.

Définition et propriétés

Soit X1,X2, une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) de mesure de probabilité P (pas nécessairement connue) à valeurs dans un ensemble 𝒳.

Définition

La mesure empirique Pn est la mesure de probabilité discrète définie par Pn(A)=1ni=1n𝟏A(Xi)=1ni=1nδXi(A)𝟏A est la fonction indicatrice et δX est la mesure de Dirac. On peut généraliser cette définition à des classes de fonctions mesurables à valeurs réelles en définissant la mesure empirique Pn par Pn(f)=𝒳fdPn=1ni=1nf(Xi) pour toute fonction f:𝒳 mesurable.

En particulier, la mesure empirique Pn(A) est la mesure empirique de la fonction indicatrice 𝟏A.

Propriétés

Propriétés de la mesure empirique classique

  • Pour un ensemble mesurable A, nPn(A) est une variable aléatoire binomiale de paramètres (n;P(A)). En particulier, Pn(A) est un estimateur non biaisé de P(A).
  • Si (Ai)1in forme une partition de 𝒳 alors les variables aléatoires Xi=nPn(Ai) sont des multinomiales de paramètres n et P(Ai).
  • Si on note αnX le processus empirique défini par αnX(t)=1n(i=1𝟏{Xit}F(t)), on peut définir ce dernier via la mesure empirique : αnX=n(PnP)Pn=P+αnXn.

Propriétés de la mesure empirique généralisée

  • Pour une fonction mesurable fixée f,Pn(f) est une variable aléatoire de moyenne 𝔼[f] et de variance 1n𝔼[(f𝔼[f])2].
  • D'après la loi forte des grands nombres, Pn(f) converge p.s. vers 𝔼[f] pour une fonction mesurable f fixée.
  • La mesure empirique indexée par une classe de fonctions s'exprime avec le processus empirique indexé par une classe de fonctions de la même manière que la mesure empirique :
    αnX(f)=1n(i=1nf(Xi)𝔼[f(Xi)]).

Principe des grandes déviations

Modèle:Article détaillé En 1957, Sanov[1] établit que la mesure empirique suit le principe des grandes déviations avec pour fonction taux la divergence de Kullback-Leibler. En particulier, la probabilité que la mesure empirique appartienne à un ensemble auquel n'appartient pas la loi mère (i.e. P) de l'échantillon est exponentiellement décroissante par rapport à la taille de l'échantillon. Une preuve simple faisant appel à des résultats élémentaires de topologie a été proposée en 2006 par Csiszár[2].

Classes de Glivenko-Cantelli et de Donsker

Classe de Glivenko-Cantelli

Modèle:Article détaillé

Le théorème de Glivenko-Cantelli affirme que la fonction de répartition empirique

Fn(t)=Pn(],t])

converge uniformément vers la fonction de répartition

F

de la variable étudiée. Pour généraliser ce résultat, on nomme les classes de Glivenko-Cantelli les classes des fonctions mesurables à valeurs réelles pour lesquels la mesure empirique converge uniformément vers la mesure théorique. En d'autres mots,

𝒞

est une classe de Glivenko-Cantelli si

limn+||PnP||𝒞=limn+supC𝒞|Pn(C)P(C)|=0.

Classe de Donsker

Modèle:Article détailléLe théorème de Donsker affirme lui que le processus empirique αnX converge en loi vers un pont brownien. Pour généraliser cela, on nomme classes de Donsker les classes des fonctions auxquelles la mesure empirique centrée et normalisée converge en loi vers un pont brownien. En d'autres mots, 𝒞 est une classe de Donsker si αnn+𝔾 dans (𝒞).

Articles connexes

Ouvrages

Références

Modèle:Portail