Paradoxe de Stein

De testwiki
Aller à la navigation Aller à la recherche

Le paradoxe de Stein est un résultat de statistique, dû au statisticien Charles Stein, exposé dans un article de 1956[1], puis étendu dans un article co-écrit avec Willard James en 1961[2]. Ce résultat n'est pas paradoxal à proprement parler, mais surprenant et contre intuitif. Il constitue un pas important dans l'introduction des Modèle:Lien (shrinkage estimators en anglais) en montrant que l'Modèle:Lien domine strictement l'estimateur du maximum de vraisemblance (au sens que l'erreur quadratique moyenne est plus petite). Son caractère paradoxal vient du fait qu'il justifie de combiner des observations sans rapport entre elles pour estimer leurs espérances.

Énoncé

Soient X1,,Xn n variables aléatoires réelles indépendantes ayant des distributions normales d'espérances μ1,,μn, et toutes de variance 1. Le paradoxe concerne l'estimation des espérances μ1,,μn.

Comme il y a qu'une seule donnée, l'estimateur du maximum de vraisemblance de μ1 est X1, de μ2 est X2, ... , de μn est Xn.

Notons X le vecteur aléatoire de n ayant pour coordonnées X1,,Xn et μ le vecteur de nayant pour coordonnées μ1,,μn. L'estimateur du maximum de vraisemblance de μ est alors simplement μ^MV=X. Cet estimateur est non biaisé, et il s'agit de l'estimateur non biaisé de plus petite variance. Cependant, le paradoxe de Stein est que si n3, il existe un meilleur estimateur : l'estimateur de James-Stein (nommé d'après Willard James et Charles Stein), défini par μ^JS=(1n2X2)X, où X2=X12++Xn2 est le carré de la norme euclidienne de X.

Le mot meilleur ici est à prendre au sens du risque quadratique. Le risque quadratique d'un estimateur μ^ est défini par : R(μ^,μ)=𝔼(μ^μ2) (ce risque correspond à une erreur quadratique moyenne multiparamétrique). L'estimateur de James-Stein est meilleur au sens qu'il a un plus faible risque quadratique que l'estimateur du maximum de vraisemblance, et ce quel que soit μ. On dit que l'estimateur de James-Stein domine l'estimateur du maximum de vraisemblance. Cette domination est stricte car il existe des valeurs de μ pour lesquelles le risque de l'estimateur de James-Stein est strictement plus petit que celui de l'estimateur du maximum de vraisemblance.

Énoncé formel

Ce résultat peut être énoncé de manière plus conciseModèle:Référence nécessaire :

Modèle:Théorème

Démonstration

Reprenons les notations précédentes et calculons le risques quadratiques des deux estimateurs.

Risque quadratique de l'estimateur du maximum de vraisemblance

Le risque quadratique de μ^MV vaut :

𝔼(μ^MVμ2)=𝔼(Xμ2)=𝔼(in(Xiμi)2)=in𝔼((Xiμi)2)=inVar(Xi)=n car on a supposé que les variances des variables Xi vaut 1.

Risque quadratique de l'estimateur de James-Stein

Le risque quadratique de μ^JS est

𝔼(μ^JSμ2)=𝔼((1n2X2)Xμ2)

que l'on peut réécrire

𝔼((Xμ)n2X2X2).

Or,

(Xμ)n2X2X2=Xμ2+(n2)2X22(n2)(Xμ)XX2 désigne le produit scalaire.

Donc

𝔼(μ^JSμ2)=n+(n2)2𝔼(1X2)2(n2)𝔼((Xμ)XX2)

Calculons maintenant 𝔼((Xμ)XX2).

𝔼((Xμ)XX2)=i=1n𝔼(XiX2(Xiμi))=i=1nxnxix2(xiμi)(2π)n2e12xμ2dx1dxn

Chaque intégrale de cette somme peut-être simplifiée en utilisant une intégration par partie en écrivant :

(xiμi)(2π)n2e12xμ2=xi[1(2π)n2e12xμ2] et xi[xix2]=x22xi2x4.

D'où

𝔼(XiX2(Xiμi))=xnx2xi2x41(2π)n2e12xμ2dx1dxn=𝔼(X22Xi2X4)=𝔼(1X2)2𝔼(Xi2X4)

En sommant sur i, on obtient que

𝔼((Xμ)XX2)=(n2)𝔼(1X2)

Et donc, le risque de l'estimateur de James-Stein est

n+(n2)2𝔼(1X2)2(n2)2𝔼(1X2)=n(n2)2𝔼(1X2)

Étant donné que 𝔼(1X2)>0, on a ainsi que le risque quadratique de l'estimateur de James-Stein est strictement inférieur à celui du maximum de vraisemblance.

Remarques

On remarque que le risque de l'estimateur de James-Stein ne dépend que la norme de μ, et qu'il atteint sa valeur minimale, 2, lorsque μ=0. En effet, 1X2 suit alors une Loi inverse χ² d'espérance n2, donnant alors le risque R(μ^JS,μ=0)=2. Pour toute valeur de μ, le gain d'utiliser l'estimateur de James-Stein augmente avec n.

Interprétation

Paradoxe

Ce résultat est qualifié de paradoxe car il serait naturel de s'attendre à ce que l'estimateur du maximum de vraisemblance soit meilleur. En effet, l'estimation de μ1 dans l'estimateur de James-Stein utilise toutes les observations, même si X2,,Xn ne sont porteurs d'aucune information sur μ1 puisque leurs distributions ne dépendent pas de μ1et qu'elles sont indépendantes de X1. Il en va de même pour les estimations de μ2,,μn. Les variables aléatoires X1,,Xn n'ayant possiblement aucun rapport, il est étrange que la meilleure stratégie ne soit pas d'estimer l'espérance μi en utilisant uniquement l'observation Xi.

Pour illustrer cela[3], supposons qu'on s'intéresse à la proportion d'électeurs qui comptent voter pour Trump à une élection, à la proportion de nouveau-nés filles en Chine, et à la proportion de britanniques ayant les yeux bleus. Pour cela, on dispose de trois observations : le résultat d'un sondage électoral, le nombre de filles nées dans un hôpital chinois et le nombre de personnes aux yeux bleus dans une ville anglaise (ces observations sont issues de lois binomiales, mais elles peuvent facilement être approximées, après transformation, par des lois normales). Alors, en utilisant l'estimateur de James-Stein, on estimera en particulier la proportion de votant pour Trump en utilisant le nombre de filles nées dans l'hôpital chinois et le nombre de personnes aux yeux bleus dans la ville anglaise !


Explication

En réalité, il serait peu judicieux d'utiliser l'estimateur de James-Stein dans l'exemple précédent. Cet estimateur a certes le plus petit risque quadratique combiné sur les trois estimations, mais il n'a pas le plus petit risque quadratique pour une estimation particulière. En général, l'estimateur de James-Stein a tendance à dégrader la plupart des estimations mais à en améliorer sensiblement quelques-unes, ces quelques améliorations compensent les dégradations. Dans l'exemple précédent, il est probable que deux des trois estimations soient moins bonnes avec l'estimateur de James-Stein qu'avec le maximum de vraisemblance, mais que la troisième soit suffisamment meilleure pour réduire le risque quadratique total. En pratique, un statisticien intéressé uniquement à la proportion de filles parmi les nouveau-nés en Chine n'aurait très certainement pas intérêt à utiliser cet estimateur comme décrit précédemment, de même pour quelqu'un intéressé uniquement par la proportion d'électeurs de Trump ou uniquement par le nombre de personnes aux yeux bleus. Pour que cet estimateur ait un intérêt, il faut qu'un statisticien soit intéressé simultanément à ces trois estimations, ce qui est peu probable.

Estimateur contractant

L'estimateur de James-Stein est un exemple d'Modèle:Lien, c'est-à-dire qu'il ramène artificiellement les valeurs estimées vers 0. D'autres exemple de tels estimateurs sont les estimateurs de type Lasso ou ceux utilisant une régularisation de Tikhonov (Ridge regression en anglais). Il est donc naturel que le gain de risque quadratique obtenu en utilisant l'estimateur de James-Stein plutôt que le maximum de vraisemblance soit maximal lorsque μ=0.

Le risque quadratique d'un estimateur peut se décomposer en R(μ^,μ)=𝔼(μ^)μ2+tr(Var(μ^)). Le premier terme de cette décomposition augmente avec le biais de l'estimateur et le second avec sa variance. La contraction des estimations a pour effet d'augmenter le biais mais de diminuer la variance. La diminution de variance surpasse l'augmentation du biais de telle sorte que le risque quadratique diminue.

Le choix de contracter vers 0 est arbitraire et des estimateurs de James-Stein peuvent être construits en contractant vers n'importe quelle valeur

μ0

selon:

μ^JSμ0=μ0+(11Xμ02)(Xμ0)

.

Quelle que soit la valeur de

μ0

, l'estimateur de James Stein contractant vers

μ0

domine strictement le maximum de vraisemblance. Bradley Efron et Modèle:Lien ont montré en 1973[4], qu'utiliser

μ0=(XX)

lorsque

n4

est un meilleur choix que

μ0=0

.

Généralisations du résultat

L'estimateur de James-Stein peut être amélioré en prenant la partie positive du facteur de contraction donnant l'estimateur : μ^JS+=(11X2)+X(  )+ désigne la partie positive.

Le résultat de Stein de 1956 utilise 3 hypothèses : les Xi ont des distributions normales, leurs variances sont connues et identiques, et ils sont indépendants. Cependant ce résultat a été étendu et toutes ces hypothèses ne sont pas nécessaires : le paradoxe de Stein a été généralisé à des problèmes d'estimations où les variances des différentes variables aléatoires peuvent être différentes et inconnus, et même à des problèmes où les distributions ne sont pas normales.

L'utilisation du risque quadratique n'est pas indispensable non plus. L'estimateur de James-Stein peut être adapté à une large classe de fonctions de risque pour lesquelles il domine toujours l'estimateur du maximum de vraisemblance[5].

Références

Modèle:Références Modèle:Portail