Normalité asymptotique locale

De testwiki
Aller à la navigation Aller à la recherche

La normalité asymptotique locale, souvent abrégé en NAL ou LAN (de l'Anglais Local Asymptotic Normality) est une propriété de certains modèles statistiques. Informellement, un modèle statistique localement asymptotiquement normal a un rapport de vraisemblance dont la distribution peut être approximée par une loi normale sous certaines conditions, cette approximation découlant typiquement d'un développement limité d'ordre deux de la log-vraisemblance. Cette notion a été introduite par le mathématicien Lucien Le Cam, elle est exposée dans un article[1] publié en 1960 coécrit avec Grace Lo Yang.

Définition informelle

Considérons un modèle statistique générant n données, dénotées par un vecteur Xn de taille n, et dépendant d'un paramètre θ. Notons n la fonction de log-vraisemblance de ce modèle. Considérons deux valeurs du paramètre : θ0 et θ. Supposons que les données Xn soient générées par ce modèle avec θ0 comme valeur de paramètre, et définissons la variables aléatoire δθ,θ0(Xn)=n(Xn,θ)n(Xn,θ), correspondant à la différence des log-vraisemblances évaluées en θ et en θ.

Si le modèle considéré est asymptotiquement localement normal en θ0, alors la loi de la variable aléatoire δθ,θ0(Xn) peut être approximée par une loi normale. Cette approximation est valable pour n grand (d'où le asymptotiquement) et pour tout θ proche de θ0 (d'où le localement).

La condition n grand est rendue rigoureuse en utilisant la notion de convergence en loi. La condition et θ proche de θ0 est quant à elle traduite par le fait que et θ est de la forme θ0+rnh avec rnune suite de constantes tendant vers 0 (par exemple rn=1/n dans le cas de données indépendantes et identiquement distribuées), de sorte que plus n est grand, plus θ est proche de θ0.

La variable aléatoire δθ,θ0(Xn) est la statistique utilisée pour faire un test du rapport de vraisemblance. Elle souvent abusivement appelée rapport de vraisemblance même s'il s'agit en réalité du logarithme du rapport de vraisemblance.

Cas de données indépendantes et identiquement distribuées

Définition de la normalité asymptotique locale

Soit n variables aléatoires X1,,Xnindépendantes et identiquement distribuées (iid) selon une distribution Pθ, dépendant d'un paramètre θk. Notons sa fonction de vraisemblance pθ(X). La log-vraisemblance (θ;X1,,Xn) de l'échantillon aléatoire X1,,Xn s'écrit comme la somme des log-vraisemblances de chaque observation, (θ;X1,Xn)=i=1nlog(pθ(Xi)), car les données sont iid.

Appelons Pθn le modèle statistique générant ces n variables aléatoires. Pθn est localement asymptotiquement normal si lorsque X1,,Xn est distribué selon Pθn,

hk , (θ+h/n;X1,,Xn)(θ;X1,,Xn)𝒩(12hTIθh;hTIθh),

désigne la converge en loi et 𝒩(12hTIθh;hTIθh) désigne une loi normale d'espérance hTIθ et de variance hTIθh. La matrice Iθ est l'information de Fisher du modèle, définie comme Iθ=𝔼θ[2log(pθ(X))θ2].

Distribution, pour différentes tailles d'échantillon n, du log-rapport de vraisemblance évalué en θ=1 et θ=1+1/n, lorsque les données sont générées par loi exponentielle d'intensité θ=1. Le log-rapport de vraisemblanceconverge en loi vers une loi normale 𝒩(1/2,1) (en pointillés) car la loi exponentielle est localement asymptotiquement normale.

Établissement non rigoureux de la normalité asymptotique locale

Donnons ici l'intuition, informelle, de la normalité asymptotique locale dans le cas de données iid. Plaçons nous dans le cas k=1 (c'est-à-dire θ univarié) et effectuons un développement de Taylor de la log-vraisemblance en θ

(θ+h/n;X1,,Xn)=i=1nlog(pθ+hn(Xi))i=1nlog(pθ(Xi))+hnθlog(pθ(Xi))+h22n2θ2log(pθ(Xi))=(θ;X1,,Xn)+h1ni=1nθlog(pθ(Xi))h221ni=1n2θ2log(pθ(Xi)).

De sorte que

l(θ+h/n;X1,Xn)l(θ;X1,Xn)h1ni=1nθlog(pθ(Xi))h221ni=1n2θ2log(pθ(Xi)).

Comme X1,,Xn sont iid, le premier terme de cette différence , 1ni=1nθlog(pθ(Xi)) est une somme de variables aléatoires iid, θlog(pθ(X1)),,θlog(pθ(Xn)), divisée par n. Ces variables ont pour espérance 𝔼[θlog(pθ(Xi))]=0 (d'après la première identité de Bartlett) et pour variance var(θlog(pθ(X)))=Iθ (d'après la seconde identité de Bartlett), où comme précédemment, Iθ désigne l'information de Fisher. Le théorème central limite implique alors que 1ni=1nθlog(pθ(Xi)) converge en distribution vers une loi normale d'espérance nulle et de variance Iθ:

1ni=1nθlog(pθ(Xi))𝒩(0,Iθ) .

Comme X1,,Xn sont iid, second terme du développement de Taylor, 1ni=1n2θ2log(pθ(Xi)), est aussi une somme de variables aléatoires iid, divisée par n. Ces variables aléatoires ont pour espérance 𝔼θ[2log(pθ(X))θ2]=Iθ. La loi des grands nombres implique donc que ce terme converge en probabilité vers Iθ:

1ni=1n2θ2log(pθ(Xi))Iθ

On a donc asymptotiquement (θ+h/n;X1,,Xn)(θ;X1,,Xn)hZh22IθZ est une variable aléatoire normale d'espérance nulle et de variance Iθ, ce qui implique que, asymptotiquement, (θ+h/n;X1,,Xn)(θ;X1,,Xn) suit approximativement une loi normale d'espérance h22Iθ et de variance h2Iθ.

Si le développement précédent avait été fait plus rigoureusement et qu'une convergence en loi avait été établie au lieu du "suit approximativement" de la phrase précédente, cela correspondrait à la définition de la normalité asymptotique locale.

Ce développement, fait sans rigueur dans le but de donner une intuition de la normalité asymptotique locale, peut être rendu rigoureux si le modèle Pθ satisfait certaines conditions. Il faut en particulier, pour que les formules écrites ci-dessus aient du sens, que sa log-vraisemblance soit deux fois dérivable, et que ces dérivées aient des moments finis, mais ces conditions seules ne sont pas suffisantes. Une condition suffisante (mais pas nécessaire) est la différentiabilité en moyenne quadratique.

Différentiabilité en moyenne quadratique

Si le modèle statistique Pθ est différentiable en moyenne quadratique, alors, le modèle Pθn, générant n variables aléatoires iid selon Pθ est localement asymptotiquement normal.

Un modèle est différentiable en moyenne quadratique en θ s'il existe ˙(θ)k tel que pour tout h, (pθ+hpθ12hT˙(θ)pθ)2=o(h2)pθ est la vraisemblance du modèle Pθ et l'intégrale est prise sur le support de pθet le o désigne la notation de Landau au voisinage de 0[2].

Beaucoup de modèles classiques (par exemple le modèle normal, exponentiel, Poisson) sont différentiables en moyenne quadratique, et le vecteur ˙(θ) correspond à la dérivée de la log-vraisemblance. Une exception notable est la loi uniforme sur un intervalle [0,θ] qui n'est pas différentiable en moyenne quadratique, et n'est d'ailleurs pas non plus localement asymptotiquement normal.

Définition générale

La définition ci-dessous donne une notion de la normalité asymptotique locale plus générale, qui ne s'applique pas qu'à des variables aléatoires iid.

Une suite Pθn de modèles statistiques de paramètre θk est localement asymptotiquement normale s'il existe :

  • une suite de matrices carrées inversibles rnk(),
  • une matrice carrée Iθk(),
  • une suite de vecteurs aléatoires Δn,θ telle que Δn,θ𝒩(0,Iθ),

tels que pour toute suite hn de k convergeant vers hk, on ait

log[dPθ+rn1hnndPθn(X1,,Xn)]=hTΔn,θ12hTIθh+oP(1)

lorsque X1,,Xn sont générés par Pθn[3].

Ici, la notation dPθ+rn1hnndPθn désigne la dérivée de Radon-Nykodym de la mesure de probabilité du modèle Pθ+rn1hnnpar rapport à la mesure du modèle Pθn. Le modèle Pθ+rn1hnn correspond au modèle Pθn à la différence que le paramètre θ est changé en θ+rn1hn, la suite rn étant typiquement de norme tendant vers l'infini. En pratique, dPθ+rn1hnndPθn correspond au rapport de la vraisemblance du modèle évaluée en θ+rn1hn sur la vraisemblance du modèle évaluée en θ.

La notation oP(1) désigne ici une variable aléatoire tendant vers 0 en probabilités. Même si cela n'est pas rendu explicite, il faut noter que ce terme oP(1) peut dépendre de θ, de sorte que la convergence n'est pas uniforme par rapport à θ.

Comme le vecteur hTΔn,θ12hTIθh suit une loi normale d'espérance 12hTIθh et de variance hTIθh, cette définition s'interprète souvent comme imposant que le log du rapport de vraisemblance suive asymptotiquement une loi normale 𝒩(12hTIθh,hTIθh) d'espérance 12hTIθh et de variance hTIθh.

Dans le cas de données iid, Iθ correspond à l'information de Fisher et la suite de matrice rn est simplement rn=nIkIkest la matrice identité de k.

Lien avec la contiguïté

En reprenant les notations précédentes, la normalité asymptotique locale d'un modèle statistique Pθ implique la contiguïté mutuelle des mesures Pθ et Pθ+rn1hn (ou Pθ+h/n dans le cas d'un modèle iid).Modèle:ThéorèmeLa preuve de ce résultat découle du premier lemme de Le Cam. Modèle:Démonstration

Application

Une application de la normalité asymptotique locale découle d'un corollaire du 3ème lemme de Le Cam. Ce corollaire permet de connaître la distribution asymptotique d'une statistique T(Xn) si les variables aléatoires Xn sont générées par un modèle statistique dont le paramètre n'est pas fixe, mais converge vers une valeur fixe θ. On parle de connaître la distribution asymptotique de T(Xn) sous une suite d'alternatives, ou encore de changement de mesure.

Ce corollaire stipule que si

  • T(Xn) est une statistique à valeurs dans p,
  • Pn et Qn sont deux suites de mesures (ou modèles statistiques), telles que le vecteur (T(Xn),logdQndPn)𝒩((μσ2/2),(ΣττTσ2)) pour μ,τ,σ××+, lorsque les Xn sont générés par Pn,

alors, la statistique T(Xn)𝒩(μ+τ,Σ) lorsque les Xn sont générés par Qn.

Choisir Pn=Pθn et Qn=Pθ+h/nn avec un modèle Pθn localement asymptotiquement permet généralement de satisfaire les hypothèses du corollaire. Cela permet alors de connaitre la distribution de T(Xn) lorsque le paramètre qui génère les données Xn n'est pas θ mais θ+h/n.

La normalité asymptotique de Pθn n'implique pas directement que les hypothèses du 3ème lemme de Le Cam soient satisfaites, mais elle y aide. En effet, la normalité asymptotique locale implique que logdPθ+h/nndPθn converge en loi vers une distribution normale 𝒩(σ2/2,σ2), avec σ2=hTIθh.

Il est par ailleurs assez classique pour une statistique T(Xn) d'avoir une distribution asymptotique de la forme 𝒩(μ,Σ). Il ne reste alors généralement qu'à montrer que le vecteur (T(Xn),logdPθ+h/nndPθn) est un vecteur gaussien (car deux vecteurs gaussiens ne forment pas nécessairement un vecteur gaussien lorsqu'ils sont concaténés), ce qui est généralement faisable.

Voir aussi

Références

Modèle:Références Modèle:Portail