Série d'Edgeworth

De testwiki
Aller à la navigation Aller à la recherche

La série A de Gram-Charlier (nommée en l'honneur de Jørgen Pedersen Gram et Carl Charlier) et la série d'Edgeworth (nommée en l'honneur de Francis Ysidro Edgeworth) sont des séries qui se rapprochent d'une distribution de probabilité exprimée à partir de ses cumulants [1]. Les séries sont identiques, mais l'arrangement des termes (et donc la précision de la troncature de la série) diffère[2]. Le principe de ces développements est d'écrire la fonction caractéristique de la distribution dont la fonction de densité de probabilité Modèle:Mvar doit être approchée en fonction de la fonction caractéristique d'une distribution avec des propriétés connues et appropriées, et de récupérer Modèle:Mvar par une transformée de Fourier inverse.

Série A de Gram-Charlier

On considère une variable aléatoire continue. On note f^ la fonction caractéristique de sa distribution dont la fonction de densité est Modèle:Mvar, et κr ses cumulants. On développe en termes de distribution connue avec la fonction de densité de probabilité Modèle:Formule, sa fonction caractéristique ψ^, et ses cumulants γr . La densité Modèle:Formule est généralement choisie comme étant celle de la distribution normale, mais d'autres choix sont également possibles. Par la définition des cumulants, on a (voir Wallace, 1958) [3]:

f^(t)=exp[r=1κr(it)rr!] et
ψ^(t)=exp[r=1γr(it)rr!],

qui donne l'identité formelle suivante :

f^(t)=exp[r=1(κrγr)(it)rr!]ψ^(t).

Par les propriétés de la transformée de Fourier, (it)rψ^(t) est la transformée de Fourier de (1)r[Drψ](x), où Modèle:Mvar est l'opérateur différentiel par rapport à Modèle:Mvar . Ainsi, après avoir changé x avec x des deux côtés de l'équation, on trouve pour Modèle:Mvar le développement formel

f(x)=exp[r=1(κrγr)(D)rr!]ψ(x).

Si Modèle:Formule est choisi comme la densité normale

ϕ(x)=1σ2πexp[(xμ)22σ2]

avec la moyenne et la variance données par Modèle:Mvar, c'est-à-dire comme moyenne μ=κ1 et comme variance σ2=κ2, alors le développement devient

f(x)=exp[r=3κr(D)rr!]ϕ(x),

puisque γr=0 pour tout Modèle:Mvar > 2, car les cumulants d'ordres supérieurs de la distribution normale sont nuls. En développant les termes exponentiels et réunissant les termes selon l'ordre des dérivées, on arrive à la série A de Gram-Charlier. Un tel développement peut être écrit de manière compacte avec les polynômes de Bell ainsi :

exp[r=3κr(D)rr!]=n=0Bn(0,0,κ3,,κn)(D)nn!.

Puisque la dérivée n-ième de la fonction gaussienne ϕ est donnée en termes de polynôme d'Hermite par

ϕ(n)(x)=(1)nσnHen(xμσ)ϕ(x),

on obtient l'expression finale de la série A de Gram-Charlier comme

f(x)=ϕ(x)n=01n!σnBn(0,0,κ3,,κn)Hen(xμσ).

L'intégration de la série donne la fonction de répartition :

F(x)=xf(u)du=Φ(x)ϕ(x)n=31n!σn1Bn(0,0,κ3,,κn)Hen1(xμσ),

Φ est la fonction de répartition de la loi normale.

Si on n'inclut que les deux premiers termes de correction à la loi normale, il vient :

f(x)12πσexp[(xμ)22σ2][1+κ33!σ3He3(xμσ)+κ44!σ4He4(xμσ)],

avec He3(x)=x33x et He4(x)=x46x2+3 .

On notera que cette expression n'est pas assurée d'être positive et ne définit donc pas une loi de probabilité valide. La série A de Gram – Charlier diverge dans de nombreux cas classiques - elle ne converge que si f(x) décroit plus vite que exp((x2)/4) à l'infini (Cramér 1957). Lorsqu'elle ne converge pas, la série n'est pas non plus un véritable développement asymptotique, car il n'est pas possible d'estimer l'erreur du développement. Pour cette raison, la série d'Edgeworth est généralement préférée à la série A de Gram-Charlier.

Série d'Edgeworth

Edgeworth a établi un développement similaire en tant qu'amélioration du théorème central limite[4]. L'avantage de la série d'Edgeworth est que l'erreur est contrôlée, de sorte qu'il s'agit d'un véritable développement asymptotique.

Soient {Zi} une suite de variables aléatoires indépendantes et identiquement distribuées de moyenne μ et variance σ2, et soient Xn leurs sommes standardisées :

Xn=1ni=1nZiμσ.

On note Fn les fonctions de répartition des variables Xn. Alors par le théorème central limite,

limnFn(x)=Φ(x)x12πe12q2dq

pour chaque x, tant que la moyenne et la variance sont finies.

La standardisation de {Zi} assure que les deux premiers cumulants de Xn valent κ1Fn=0 et κ2Fn=1. On suppose maintenant que, en plus d'avoir une moyenne μ et une variance σ2 finies, les variables aléatoires iid Zi ont des cumulants plus élevés κr bien définis. À partir des propriétés d'additivité et d'homogénéité des cumulants, les cumulants de Xn en termes de cumulants de Zi sont pour r2 ,

κrFn=nκrσrnr/2=λrnr/21whereλr=κrσr.

Si on développe l'expression formelle de la fonction caractéristique f^n(t) de Fn en termes de distribution normale standard, c'est-à-dire si l'on pose

ϕ(x)=12πexp(12x2),

alors les différences entre cumulants dans le développement sont

κ1Fnγ1=0,
κ2Fnγ2=0,
κrFnγr=λrnr/21;r3.

La série A de Gram-Charlier pour la fonction de densité de Xn est maintenant

fn(x)=ϕ(x)r=01r!Br(0,0,λ3n1/2,,λrnr/21)Her(x).

La série d'Edgeworth est développée de manière similaire à la série A de Gram-Charlier, sauf que maintenant les termes sont regroupés en fonction des puissances de n. Les coefficients du terme n-m/2 peuvent être obtenus en rassemblant les monômes des polynômes de Bell correspondant aux partitions entières de m. Ainsi, on obtient la fonction caractéristique :

f^n(t)=[1+j=1Pj(it)nj/2]exp(t2/2),

Pj(x) est un polynôme de degré 3j. Ainsi, après transformée de Fourier inverse, la fonction de densité fn s'exprime comme suit :

fn(x)=ϕ(x)+j=1Pj(D)nj/2ϕ(x).

De même, en intégrant la série, on obtient la fonction de répartition :

Fn(x)=Φ(x)+j=11nj/2Pj(D)Dϕ(x).

On peut écrire explicitement le polynôme Pm(D) comme

Pm(D)=i1ki!(λlili!)ki(D)s,

où la sommation est sur toutes les partitions entières de m telles que iiki=m et li=i+2 et s=ikili.

Par exemple, si m = 3, alors il y a trois façons de partitionner ce nombre : 1 + 1 + 1 = 2 + 1 = 3. Il faut donc examiner trois cas :

  • 1 + 1 + 1 = 1 · k1, ce qui donne k1 = 3, l1 = 3 et s = 9.
  • 1 + 2 = 1 · k1 + 2 · k2, ce qui donne k1 = 1, k2 = 1, l1 = 3, l2 = 4 et s = 7.
  • 3 = 3 · k3, ce qui donne k3 = 1, l3 = 5 et s = 5.

Ainsi, le polynôme recherché est

P3(D)=13!(λ33!)3(D)9+11!1!(λ33!)(λ44!)(D)7+11!(λ55!)(D)5=λ331296(D)9+λ3λ4144(D)7+λ5120(D)5.

Les cinq premiers termes du développement sont

fn(x)=ϕ(x)1n12(16λ3ϕ(3)(x))+1n(124λ4ϕ(4)(x)+172λ32ϕ(6)(x))1n32(1120λ5ϕ(5)(x)+1144λ3λ4ϕ(7)(x)+11296λ33ϕ(9)(x))+1n2(1720λ6ϕ(6)(x)+(11152λ42+1720λ3λ5)ϕ(8)(x)+11728λ32λ4ϕ(10)(x)+131104λ34ϕ(12)(x))+O(n52).

Ici, Modèle:Formule est la dérivée j -ième de Modèle:Formule au point Modèle:Mvar. En rappelant que les dérivées de la densité de la distribution normale sont liées à la densité normale par ϕ(n)(x)=(1)nHen(x)ϕ(x), (où Hen est le polynôme d'Hermite d'ordre n), ceci explique les représentations alternatives en termes de fonction de densité. Blinnikov et Moessner (1998) ont donné un algorithme simple pour calculer les termes d'ordre supérieur du développement.

Il faut noter que dans le cas d'une distribution de réseau (qui a des valeurs discrètes), le développement d'Edgeworth doit être ajusté pour tenir compte des sauts discontinus entre les points du réseau[5].

Illustration : densité de la moyenne d'échantillon de trois distributions Modèle:Math

Densité de la moyenne de l'échantillon de trois variables Modèle:Math. Le graphique compare la densité réelle, l'approximation normale et deux développements d'Edgeworth.

On prend l'exemple de trois variables iid suivant toutes la loi du Modèle:Math à deux degrés de liberté :

Xiχ2(k=2),i=1,2,3(n=3) et la moyenne de l'échantillon X=13i=13Xi .

On peut utiliser plusieurs distributions pour approcher X :

  • la distribution exacte, qui suit une distribution gamma : XGamma(α=nk/2,θ=2/n)=Gamma(α=3,θ=2/3) .
  • la distribution normale asymptotique : Xn𝒩(k,2k/n)=𝒩(2,4/3) .
  • deux développements d'Edgeworth, de degrés 2 et 3.

Discussion des résultats

  • Pour les échantillons finis, une série d'Edgeworth n'est pas garantie d'être une loi de probabilité appropriée car les valeurs de la fonction de répartition à certains points peuvent aller au-delà de l'intervalle [0,1] .
  • Ils garantissent (asymptotiquement) des erreurs absolues, mais les erreurs relatives peuvent être facilement évaluées en comparant le terme principal d'Edgeworth dans le reste avec le terme principal global [6].

Voir aussi

Références

Modèle:Traduction/Référence Modèle:Références

Bibliographie

Modèle:Portail

  1. Modèle:Ouvrage.
  2. Modèle:Ouvrage.
  3. Modèle:Article
  4. Hall, P. (2013). The bootstrap and Edgeworth expansion. Springer Science & Business Media.
  5. Modèle:Article
  6. Modèle:Ouvrage