Winsorisation

De testwiki
Aller à la navigation Aller à la recherche

La winsorisation (Modèle:Lang en anglais) est un procédé en statistiques visant à limiter l'impact de données aberrantes dans l'estimation d'un paramètre. Le nom winsorisation a été donné par John Tukey en l'honneur du biostatisticien Modèle:Lien[1].

Principe

On considère un jeu de données numériques X=(x1,...,xn) et une statistique T(X) (la moyenne ou l'écart-type de X par exemple). Winsoriser cette statistique revient à la calculer non pas sur le jeu de données original X, mais sur un jeu de données modifié où une proportion α des valeurs les plus extrêmes sont "écrasées" sur les quantiles de niveaux α2 et 1α2 [2]. La proportion α doit être choisie par le statisticien en fonction de la robustesse souhaitée (un choix courant est α=0,05).

Plus formellement, on définit X=(x'1,...,x'n) par

x'i={qα2(X) si xi<qα2(X)xi si qα2<xi<q1α2(X)q1α2(X) si xi>q1α2(X)

qα2(X) et q1α2(X) désignent les quantiles des données X de niveaux α2 et 1α2. Alors la statistique winsorisée de T(X) est T(X).

Exemple

On prend α=0,1 et on considère le jeu de données suivant

X=(92;19;101;58;𝟏𝟎𝟓𝟑;91;26;78;10;13;𝟒𝟎;101;86;85;15;89;89;28;5;41)

le quantile de X à 5% est 5 et le quantile à 95% est 101.

On construit le jeu de données :

X=(92;19;101,58,𝟏𝟎𝟏,91,26,78,10,13,𝟓,101,86,85,15,89,89,28,5,41)

en remplaçant les valeurs inférieures à 5 par 5 et celles supérieures à 101 par 101.

Pour calculer des statistiques sur X winsorisées à 90%, il suffit alors de les calculer sur X:

  • la moyenne winsorisée à 90% de X (c'est-à-dire la moyenne de X) est de 55,65, alors que la moyenne non winsorisée de X est de 101,5.
  • la variance winsorisée à 90% de X (c'est-à-dire la variance de X) est de 1545,6, alors que la variance non winsorisée de X est de 51865,4.
  • la statistique T winsorisée à 90% pour effectuer un test de Student sur l'hypothèse H0:μ=0 est de 2055,651545,6=6,33 et donne une p-value de 4,484×1006. Non winsorisée, la statistique T donne 1,9932 et la p-value 0,0608. On remarque que les conclusions du test sont différentes pour un niveau de 5% ou moins. Le test winsorisé est plus fiable dans ce cas, car il n'est pas souhaitable que deux observations seulement parmi les 20 puissent déterminer l'issue du test.
  • la médiane winsorisée à 90% de X est de 68, de même que la médiane non winsorisée.

Propriétés

La statistique winsorisée est plus robuste que la statistique originale, au sens que sa valeur sera moins influencée par les valeurs extrêmes.

Il est aisé de voir que le Modèle:Lien d'une statistique winsorisée est de α[3].

En pratique

Différentes fonctions permettent de winsoriser des données :

  • sous R, la fonction Winsorize de la librarie DescTools.
  • sous Python, la fonction mstats.winsorize de la librairie scipy.stats.
  • sous Excel, la fonction WINSORIZE de la librairie Real Statistics Resource Pack.

Références

Modèle:References

Voir aussi

Liens externes

Modèle:Article

Modèle:Portail