Théorème de Pitman-Koopman-Darmois

De testwiki
Aller à la navigation Aller à la recherche

Le théorème de Pitman-Koopman-Darmois, aussi appelé théorème de Koopman-Darmois, de Darmois ou parfois de Fisher-Pitman-Koopman-Darmois (parfois le terme lemme est employé au lieu de théorème), est un résultat de statistique établi indépendamment par Bernard Koopman[1], Edwin Pitman[2] et Georges Darmois[3] dans les années 30, d'après une intuition de Ronald Fisher[4]. Ce théorème établit, sous certaines conditions, que parmi les modèles statistiques générant des variables réelles indépendantes et identiquement distribuées, les seuls admettant une statistique exhaustive non triviale sont ceux issus de la famille exponentielle. Ce théorème est considéré comme un résultat fondamental des statistiques et a donné lieu à de nombreux développements[5] et généralisations[6]Modèle:,[7].

Énoncé

Énoncé et démonstration

Modèle:Théorème

Modèle:Démonstration Modèle:Démonstration Modèle:Démonstration

Remarques

  • Ce théorème ne s'applique qu'aux variables aléatoires continues.
  • La statistique (i=1na1(Xi),,i=1nar(Xi)) est alors aussi une statistique exhaustive (d'après le critère de factorisation de Fisher-Neyman). De plus, si r est le plus petit entier pour laquelle fθ peut s'écrire sous la forme fθ(x)=g(x)exp(i=1rai(x)bi(θ)+c(θ)), alors cette statistique est aussi minimale, et r est appelé le rang de la famille de distribution {fθθΘ}[8].
  • L'hypothèse de continuité de la statistique exhaustive T est cruciale. Il est en effet possible de créer des fonctions non continues bijectives de n dans . Une telle fonction, inutile en pratique par sa complexité, conserverait toute l'information d'une réalisation de l'échantillon X1,,Xn en la compressant en un seul nombre réel, et formerait donc une statistique exhaustive (puisque l'échantillon X1,,Xn est lui-même une statistique exhaustive), que la loi des Xi appartienne à la famille exponentielle ou non.
  • Si le support de X est une réunion finie d'intervalles disjoints I1,I2,, alors on peut appliquer le théorème de Pitman-Koopman-Darmois à la variable aléatoire XXIk, dont le support est l'intervalle Ik et dont la densité est fθ(xXIk)=fθ(x)/Pθ(XIk). Il en résulte que sur chaque intervalle Ik, la densité de X s'écrit sous la forme d'un membre de famille exponentielle.
  • On trouve des versions du théorème requérant que la fonction T soit différentiable[9], ou que la densité fθ soit strictement positive sur tout entier[10]. Ces conditions, plus strictes que celles de l'énoncé ci-dessus, sont suffisantes puisque la différentiabilité de T implique sa continuité, et que le stricte positivité de fθ sur implique que son support soit indépendant de θ, cependant elle ne sont pas nécessaires.
  • Dans l'énoncé ci-dessus le théorème a pour hypothèse que la dimension de T(X1,,Xn) soit strictement inférieure à la taille d'échantillon n. Cette hypothèse est souvent remplacée par l'hypothèse, plus restrictive, que la dimension de T(X1,,Xn) n'augmente pas avec n. Cette hypothèse est suffisante puis qu'alors, lorsque n augmente, il dépasse à un moment donné la dimension de T(X1,,Xn) qui elle reste fixe. Cependant elle est plus stricte que nécessaire. Par exemple, une statistique exhaustive T(X1,,Xn) de dimension n1 garantit l'appartenance de fθ à la famille exponentielle, si les autres hypothèses du théorème sont respectées.

Réciproque

Le théorème de Pitman-Koopman-Darmois admet une réciproque : si une variable aléatoire X est distribuée suivant une loi de la famille exponentielle, alors il existe une statistique suffisante pour le paramètre de cette loi. Ceci est une simple conséquence de la définition de la famille exponentielle et du critère de factorisation de Fisher-Neymann. Cette réciproque s'applique aussi aux variables aléatoires discrètes.

Exemples

Loi normale

  • Soit X1,,Xn des variables indépendantes et identiquement distribuées selon une loi normale 𝒩(μ,σ2) d'espérance μ et de variance σ2. Soit X¯=1ni=1nXi la moyenne empirique et S=1n1i=1n(XiX¯)2 l'estimateur non biaisé de la variance. Alors T(X)=(X¯,S) est une statistique exhaustive pour le couple de paramètres (μ,σ), et la loi normale appartient bien à la famille exponentielle. De plus, la statistique T est aussi minimale et la loi normale (d'espérance et de variances inconnues) est bien de rang 2.

Contre exemples

Loi de Cauchy

La loi de Cauchy de densité f(x)=1π11+(xμ)2 sur n'appartient pas à la famille exponentielle. Il n'existe donc pas de statistique exhaustive non triviale pour le paramètre μ.

Loi uniforme

Soit X1,,Xn, n variables aléatoires indépendantes et identiquement distribuées selon une loi uniforme sur l'intervalle [0,θ] pour θ]0,+[ . Cette distribution n'appartient pas à la famille exponentielle mais elle admet la statistique T(X1,,Xn)=max(X1,,Xn) comme statistique exhaustive. Cela est possible car la loi uniforme ne satisfait pas les conditions du théorème de Pitman-Koopman-Darmois puisque son support dépend du paramètre θ.

Cas des variables aléatoires discrètes

Le théorème de Pitman-Koopman-Darmois énoncé plus haut n'est valide que pour les variables aléatoires continues à valeurs dans . En effet, plusieurs hypothèses ne sont pas pertinentes pour des variables discrètes, notamment la continuité de la fonction T. Cette continuité est cruciale pour interdire des fonctions qui seraient des bijections entre n et p, et qui pourraient donc former des statistiques exhaustives pour toute loi de probabilité, puisqu'il serait possible de retrouver les valeurs de x1,,xn depuis la valeur de T(x1,,xn). Dans le cas de variables aléatoires discrètes, la fonction T a pour ensemble de départ en ensemble discret. La continuité de T n'est donc pas une notion pertinente.

Il existe bien une version du théorème de Pitman-Koopman-Darmois pour les variables aléatoires discrètes[11] pour laquelle la condition de continuité de T est adaptée au . Cependant, cette condition devient non-triviale et peu intuitive.

Modèle:Théorème

Remarques

  • Cette version discrète du théorème se limite aux familles exponentielles de rang 1. La statistique T(X1,,Xn) est donc typiquement de dimension 1.
  • La condition 2 portant sur la statistique T(X1,,Xn) est satisfaite pour tous les moments, c'est-à-dire pour les statistiques de la forme T(X1,,Xn)=i=1nXik pour k.

Exemple

Si X1,,Xn sont n variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi géométrique ou une loi de Poisson de paramètre inconnu, alors la statistique T(X1,,Xn)=i=1nXi est une statistique exhaustive pour le paramètre de la loi et elle vérifie les conditions du théorème de Pitman-Koopman-Darmois pour les variables discrètes. Les lois géométrique et de Poisson appartiennent bien à la famille exponentielle et sont de rang 1. Dans ces deux cas, la statistique T est aussi minimale.

Contre-exemples

  • Si X1,,Xnsont n variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi uniforme sur {1,,θ} pour θ*. Comme le support de cette loi dépend du paramètre θ, les conditions du théorème ne sont pas satisfaites. La statistique T(X1,,Xn)=max(X1,,Xn) est exhaustive pour θ et satisfait les conditions du théorème Pitman-Koopman-Darmois pour les variables discrètes. Cependant, la loi uniforme n'appartient pas à la famille exponentielle.
  • Si X1,,Xnsont n variables aléatoires discrètes à valeurs dans , indépendantes et identiquement distribuées suivant une loi de fonction de masse pθ dépendant d'un paramètre θ. Alors, la statistique T(X1,,Xn)=i=1n11+πXi est exhaustive pour θ, que pθ appartienne à la famille exponentielle ou non. Cela semble contredire le théorème de Pitman-Koopman-Darmois pour les variables discrètes mais en réalité la statistique T(X1,,Xn) ne satisfait pas la condition 2 de ce théorème. Pour une valeur de T(X1,,Xn) donnée, il est en fait possible de retrouver les valeurs X1,,Xn correspondantes, à l'ordre près. Formellement, si T(X1,,Xn)=T(X'1,,X'n), alors (X1,,Xn)=(X'1,,X'n)à une permutation près[11] (cela se montre en utilisant la transcendance du nombre π). Cela signifie que la statistique T(X1,,Xn) contient autant d'information que les données elles-mêmes, à l'exception de leur ordre. Puisque celles-ci sont exhaustives, T(X1,,Xn) l'est aussi.

Autres généralisations

Il existe diverses généralisations du théorème de Pitman-Koopman-Darmois. Entre autres, il existe des versions du théorème pour :

  • des variables aléatoires dont la loi a un support dépendant du paramètre[8],
  • des variables aléatoires indépendantes mais non identiquement distribuées[6],
  • des processus stochastiques[10].

Voir aussi

Modèle:Début de colonnes

Modèle:Fin de colonnes

Références

Modèle:Références


Modèle:Portail