Jackknife

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Infobox Méthode scientifique

En statistique, le jackknife (Modèle:En couteau suisse) est une méthode de rééchantillonnage qui tire son nom de couteau suisse du fait qu'elle peut être utile à diverses choses : réduction du biais en petit échantillon, construction d'un intervalle de confiance raisonnable pour toute sorte de statistiques, test statistique. À partir des années 70, cette méthode de rééchantillonnage a été « remplacée » par une méthode plus sophistiquée, le bootstrap. Cette méthode a été développée par Modèle:Lien (1924-1973).

Exposé général

Le cas de la moyenne empirique

On dispose d'un échantillon X=x1,x2,,xn, iid selon une loi inconnue F. On souhaite estimer l'espérance, notée θ :

θ=xdF(x)

Un estimateur naturel est la moyenne empirique :

θ^=1ni=1nxi.

Un moyen de mesurer l'impact d'une observation xj sur l'estimateur θ^ est de calculer la moyenne empirique sur l'échantillon Xj, à savoir l'échantillon initial X privé de sa jModèle:E observation :

θ^j=1n1ijxi

On remarque que

xj=nθ^(n1)θ^j

et en passant à la moyenne que

θ^=nθ^(n1)θ^

θ^ est la moyenne des estimations partielles θ^j :

θ^=1njθ^j.

Ainsi, on a θ^=θ^ ce qui signifie qu'on a à disposition un nouvel estimateur de l'espérance : il s'agit de son estimation jackknife.

Généralisation

Dans l'exposé précédent, la méthode du jackknife n'apporte rien dans le sens où il est confondu avec l'estimateur naturel. La généralisation montre qu'il en va tout autrement lorsqu'on considère un paramètre quelconque θ=ϕ(x1,,xn) à estimer. Une estimation de θ est θ^=ϕn(x1,,xn)=ϕn(X).

Comme précédemment, on considère l'estimation de θ sur l'échantillon privé de sa jModèle:E observation Xj :

θ^j=ϕn1(Xj),

ce qui permet de poser

θ^j=nθ^(n1)θ^j,

comme étant la jModèle:E pseudo-valeur.

Ces estimations partielles peuvent être vues comme des variables indépendantes et d'espérance θ. On peut alors définir l'estimateur jackknife de θ en prenant la moyenne empirique :

θ^=1njθ^j.

On peut généraliser cette approche en considérant un échantillon amputé non plus d'une seule observations, mais de plusieurs. Le point clé reste la définition des pseudo valeurs θ^j et de leur moyenne θ^.

Réduction du biais

Principe général

Maurice Quenouille a montré en 1949 que l'estimateur jackknife permet de réduire le biais de l'estimation initiale θ^. Supposons pour cela que E(θ^)=θ(1+an1). Bien sûr, d'autres termes en n2,n3 peuvent être considérés. Pour tout j, il en va de même pour l'estimateur partiel θ^j, à la différence près que n est remplacé par n1.

L'élément clef est la transposition de

θ^j=nθ^(n1)θ^j.

en

E(θ^j)=nE(θ^)(n1)E(θ^j),

puis en développant

E(θ^j)=θ[n(1+an)(n1)(1+an1)]=θ,

ce qui a permis d'ôter le biais du premier ordre. On pourrait itérer pour ôter les biais d'ordre supérieur.

Exemple (estimation sans biais de la variance)

Considérons l'estimateur de la variance :

σ^2=1nj(xjx¯)2

Il est bien connu que cet estimateur est biaisé. En considérant les pseudo-valeurs, on a :

θ^j=nn1j(xjx¯)2,

puis on en déduit que :

θ^=1n1j(xjx¯)2,

ce qui est l'estimateur non-biaisé de la variance. Nous venons de résorber le biais.

Intervalle de confiance

Une autre utilisation de la méthode jackknife, due à John Tukey en 1958, est de fournir un intervalle de confiance pour l'estimateur θ^ ; la variance de ce dernier est :

σ2^(θ^)=1nσ2^(θ^j)=(n1)nj(θ^jθ^)2

On peut ainsi construire comme intervalle de confiance approximatif au seuil 1α :

θ^±tα/2;n1σ2^(θ^)

tα/2;n1 est le quantile approprié d'une loi de Student.

Test statistique

Le jackknife peut aussi servir à tester une hypothèse (H0):θ=θ0 ; il suffit pour cela de comparer la variable normalisée

Z=n(θ^θ0)σ2^(θ^)

à une loi de Student de paramètre n-1.

Liens avec le bootstrap

Modèle:...

Exemple

Pour n=25 tirages indépendants dans la loi bêta de paramétres (3;7), on considère l'estimateur (biaisé) de la variance :

s^2=1ni(xix¯)2
0,21876 0,11996 0,25072 0,30178 0,14852
0,16383 0,14686 0,29925 0,15777 0,45958
0,41439 0,45365 0,41157 0,29788 0,30316
0,25900 0,69559 0,14129 0,12868 0,14144
0,32000 0,30767 0,30478 0,28287 0,14855

Sur l'échantillon, cet estimateur vaut 0,017892 pour une vraie valeur de 0,01909091. L'estimateur par la méthode jackknife vaut quant à lui 0,01863750 : le biais, même en petit échantillon, a été réduit. On peut construire un intervalle de confiance à 95 % : la variance de l'estimateur est 5,240744e-05 ce qui donne un intervalle de [0,003696325;0,033578679] qui contient la vraie valeur.

Références

Bibliographie

Voir aussi

Modèle:Portail

en:Resampling (statistics)#Jackknife