Efficacité (statistiques)

De testwiki
Version datée du 27 janvier 2025 à 10:31 par imported>TastyColin (Exemple de la médiane)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

En statistique, lModèle:'efficacité est une mesure de la qualité d'un estimateur, d'une expérimentationModèle:Sfn ou d'un test statistique[1]. Elle permet d'évaluer le nombre d'observations nécessaires pour atteindre un seuil : plus un estimateur est efficace, plus l'échantillon d'observations nécessaire pour atteindre un objectif de précision sera petit.

LModèle:'efficacité relative de deux procédures est le rapport de leurs efficacités, bien que le concept soit plus utilisé pour le rapport de l'efficacité d'une procédure donnée et d'une procédure théorique optimale. Leurs efficacités et l'efficacité relative dépendent de la taille de l'échantillon, mais on peut en tirer lModèle:'efficacité relative asymptotique (comme la limite de l'efficacité relative quand la taille de l'échantillon grandit) comme principale mesure de comparaison.

Un estimateur efficace est caractérisé par une variance ou une erreur quadratique moyenne petite, indiquant une faible déviance entre la valeur estimée et la valeur "réelle"Modèle:Sfn.

Estimateurs

L'efficacité d'un estimateur sans biais Modèle:Mvar d'un paramètre Modèle:Mvar est définie par[2]:

e(T)=1/(θ)var(T)

(θ) est l'information de Fisher d'un échantillon. Ainsi Modèle:Math est la variance minimale possible pour un estimateur non biaisé divisé par sa variance effective. La borne de Cramér-Rao permet de voir que Modèle:Math.

Estimateurs efficaces

En général, l'aplatissement d'un estimateur autour du paramètre Modèle:Mvar est une mesure de l'efficacité et de la performance de l'estimateur. Cette performance peut être évaluée par l'erreur quadratique moyenne :

Soit Modèle:Mvar un estimateur du paramètre Modèle:Mvar. L'erreur quadratique moyenne de Modèle:Mvar est MSE(T)=𝔼[(Tθ)2].

On a : MSE(T)=𝔼[(Tθ)2]=𝔼[(T𝔼[T]+𝔼[T]θ)2]=𝔼[(T𝔼[T])2]+2𝔼[T𝔼[T]](𝔼[T]θ)+(𝔼[T]θ))2=Var(T)+(𝔼[T]θ)2

Ainsi, un estimateur Modèle:Math est meilleur qu'un estimateur Modèle:Math si MSE(T1)<MSE(T2)[3].

Dans le cas où Modèle:Math et Modèle:Math sont sans biais pour le même paramètre Modèle:Mvar, alors il suffit de comparer les variances pour évaluer la performance : Modèle:Math est meilleur que Modèle:Math si Modèle:Math pour toutes les valeurs de Modèle:Mvar. En effet, pour un estimateur sans biais, le calcul précédent montre que l'erreur quadratique moyenne se réduit alors à la variance[3].

Si un estimateur Modèle:Mvar sans biais d'un paramètre Modèle:Mvar satisfait Modèle:Math pour toutes les valeurs du paramètre, alors l'estimateur est dit efficace[2].

De façon équivalente, l'estimateur atteint l'égalité dans l'inégalité de Cramér-Rao pour tout Modèle:Mvar. La borne inférieure de Cramér-Rao est un minimum pour la variance d'un estimateur non biaisé, représentant le "mieux" qu'un estimateur sans biais peut atteindre.

Un estimateur efficace est aussi l'estimateur sans biais de variance minimale. Celui-ci permet d'avoir l'égalité dans l'inégalité de Cramér-Rao pour toutes les valeurs de paramètres, soit la variance minimale pour tous les paramètres (soit la définition d'un tel estimateur). L'estimateur sans biais de variance minimale, même s'il existe, n'est pas nécessairement efficace, car le minimum de variance ne permet pas forcément d'atteindre le cas d'égalité dans l'inégalité de Cramér-Rao.

Aussi, un estimateur efficace n'existe pas toujours, mais s'il existe, c'est l'estimateur sans biais de variance minimale.

Efficacité asymptotique

Certains estimateurs peuvent atteindre une efficacité asymptotique, ce qu'on appelle estimateurs asymptotiquement efficaces. Ce peut être le cas de certains estimateurs de maximum de vraisemblance ou d'autres qui tendent vers la borne de Cramér–Rao.

Modèle:Anchor

Exemple de la médiane

On considère un échantillon de taille Modèle:Mvar tirée d'une distribution normale de moyenne Modèle:Mvar et de variance réduite, i.e., Xn𝒩(μ,1).

La moyenne X du tirage X1,X2,,XN vérifie

X=1Nn=1NXn𝒩(μ,1N).

La variance de la moyenne, qui vaut donc 1/N (le carré de l'erreur standard), est égale à la réciproque de l'information de Fisher de l'échantillon et donc, par l'inégalité de Cramér-Rao, la moyenne est efficace dans le sens où son efficacité est unitaire (100%).

En considérant maintenant la médiane de l'échantillon, X~, on a un estimateur sans biais et consistent pour Modèle:Mvar. Pour de grandes valeurs de Modèle:Mvar, la médiane est proche d'une loi normale d'espérance Modèle:Mvar et de variance Modèle:Math[4].

X~𝒩(μ,π2N).

L'efficacité de la médiane pour de grandes valeurs de Modèle:Mvar approche donc

e(X~)=(1N)(π2N)1=2/π0.64.

En d'autres termes, la variance relative de la médiane vaudra Modèle:Math. Elle sera donc 57% plus grande que la variance de la moyenne – l'erreur standard de la médiane sera 25% plus importante que celle de la moyenne[5].

Il s'agit ici de l'efficacité asymptotique — l'efficacité limite quand la taille de l'échantillon tend vers l'infiniment grand. Pour des valeurs finies de Modèle:Mvar, l'efficacité est plus grande (par exemple, un échantillon de 3 tirages donne une efficacité de 74%)Modèle:Refnec.

La moyenne est donc plus efficace que la médiane dans ce cas — ce qui est le plus souvent le cas, la moyenne empirique étant l'estimateur linéaire non biaisé le plus efficace, par le théorème de Gauss-Markov. Cependant, il y aura peut-être des mesures où la médiane a de meilleurs résultats : la médiane est plus résistante aux données aberrantes donc si le modèle gaussien est discutable ou approché, il vaudra mieux utiliser la médiane (voir Statistiques robustes).

Modèle:Anchor

Exemple de la variance

On considère un échantillon de taille Modèle:Mvar d'une distribution pour laquelle on ne connait pas la moyenne.

La variance X du tirage X1,X2,,XN est usuellement estimée par l'un des deux estimateurs :

SN2=1Nn=1N(XnX)2,S~N2=NN1SN2.

Le deuxième est souvent privilégié car convergent, sans biais et, sous conditions, asymptotiquement normal, cependant, il est moins efficace :

Var(S~N2)Var(SN2)=N2(N1)2>1.

Estimateurs dominants

Si Modèle:Math et Modèle:Math sont des estimateurs d'un paramètre Modèle:Mvar, on dit que Modèle:Math domine Modèle:Math si

θ,𝔼[(T1θ)2]𝔼[(T2θ)2]

avec l'inégalité stricte vérifiée pour au moins une valeur de Modèle:Mvar.

Efficacité relative

L'efficacité relative de deux estimateurs est définie par[6]

e(T1,T2)=𝔼[(T2θ)2]𝔼[(T1θ)2]=var(T2)var(T1)

Bien que Modèle:Mvar est en général une fonction de Modèle:Mvar, dans la plupart des cas, la dépendance disparait ; dès lors, de grandes valeurs de Modèle:Mvar indiquent que Modèle:Math est préférable, peu importe la véritable valeur de Modèle:Mvar.

Une alternative à l'efficacité relative pour comparer des estimateurs est le critère de fermeture de Pitman, qui remplace la comparaison des erreurs quadratiques moyennes par la comparaison du nombre d'occurrences où un estimateur produit des estimations plus proches de la valeur véritable par rapport à un autre.

Estimateurs de la moyenne de variables iid

En estimant la moyenne de variables indépendantes identiquement distribuées, on peut tirer avantage de la propriété sur les variances (la variance de la somme est égale à la somme des variances). Dans ce cas, l'efficacité peut être définie comme le carré du coefficient de variation, i.e[7].

e(σμ)2

L'efficacité relative de deux tels estimateurs peut alors être interprété comme la taille relative de l'échantillon d'un estimateur pour atteindre l'exactitude pour l'autre. En effet :

e1e2=s12s22.

Ainsi, si s12=n1σ2,s22=n2σ2, on a e1e2=n1n2, donc l'efficacité relative exprime la taille relative de l'échantillon du premier estimateur requis pour atteindre la variance du second.

Robustesse

Modèle:Section à sourcer L'efficacité d'un estimateur peut changer significativement selon la distribution, avec souvent une perte de qualité. C'est une des motivations des statistiques robustes – un estimateur tel que la moyenne de l'échantillon est un estimateur efficace de la moyenne de la population d'une distribution normale, for exemple, mais inefficace pour une loi mixte de deux distributions normales de même moyenne et de variances inégales.

Par exemple, si une distribution est une combinaison de 98% de N(μ, σ) et 2% de N(μ, 10σ), la présence de valeurs extrêmes pour la deuxième (appelés "données contaminantes") réduit significativement l'efficacité de la moyenne de l'échantillon comme estimateur de Modèle:Mvar. Par contraste, la moyenne tronquée est moins efficace pour une distribution normale, mais plus robuste sur les changements dans la distribution, et donc possiblement plus efficace pour une distribution mixte. De façon similaire, la forme de la distribution, comme l'asymétrie ou les queues lourdes, peuvent significativement réduire l'efficacité d'estimateurs qui suppose une distribution symétrique ou des queues fines.

Utilisations d'estimateurs inefficaces

Modèle:Article détaillé

Si l'efficacité est une qualité souhaitable d'un estimateur, elle doit être remise en perspective avec d'autres considérations, et un estimateur efficace pour certaines distributions peuvent être inefficaces pour d'autres. Par exemple, des estimateurs efficaces pour des tirages propres (sans données aberrantes) d'une distribution simple, comme une loi normale (symétrique, unimodale, et à queue fine) peuvent se montrer sensibles à la contamination aux données aberrantes, voire inefficaces pour des distributions plus compliquées. Dans les statistiques robustes, on préfère la robustesse et l'applicabilité à une plus grande variété de distributions, plutôt que l'efficacité sur un type de distribution. Les M-estimateurs sont un exemple de tels estimateurs, avec la robustesse et une haute efficacité relative, mais une efficacité éventuellement plus faible que d'autres estimateurs plus répandus. Ils peuvent toutefois s'avérer complexes à calculer.

Une alternative plus connue est donnée par les L-estimateurs, qui sont des statistiques très simples, faciles à calculer et interpréter, souvent robustes et assez efficaces pour des échantillons de départ.

Efficacité en statistiques

L'efficacité en statistiques est importante car elles permettent de comparer les performances de plusieurs estimateurs. Bien qu'un estimateur sans biais est usuellement préféré à un biaisé, un estimateur biaisé mais plus efficace peut être préférable à un estimateur sans biais mais moins efficace. Par exemple, cela peut arriver quand les valeurs de l'estimateur biaisé s'accumule autour d'une valeur proche de la valeur exacte. C'est pourquoi on évalue également la performance par le calcul des variances ou des erreurs quadratiques moyennes.

Tests d'hypothèse

Pour comparer des tests de confiance, une mesure sensée de l'efficacité peut être définie en se basant sur la taille de l'échantillon requise pour le test afin d'attente une puissance donnéeModèle:Sfn.

L'efficacité de Pitman[8] et l'efficacité de Bahadur[9] (ou l'efficacité de Hodges–Lehmann)[10]Modèle:,[11] s'appuient sur la comparaison de la performance de tests d'hypothèse statistiques. L'Modèle:Lang décrit ces trois critères ici.

Plan d'expériences

Modèle:Article détaillé

Pour des expériences, l'efficacité s'appuie sur la capacité d'une expérimentation à atteindre l'objectif de l'étude avec le minimum de ressources à allouer, comme le temps ou le financement. Dans les cas simples, l'efficacité relative des protocoles peut être exprimée comme le rapport des tailles d'échantillons nécessaires pour atteindre un objectif[12].

Notes

Modèle:Références

Références

Modèle:Traduction/Référence Modèle:Refbegin

Modèle:Refend

Modèle:Portail