Loi T² d'Hotelling

De testwiki
Version datée du 13 août 2024 à 14:48 par imported>Kelam (Voir également : +)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Infobox Distribution statistiques

En statistiques, plus particulièrement dans les tests d'hypothèses, la loi TModèle:2 de Hotelling, proposée par Harold Hotelling[1], est une loi de probabilité multivariée qui est étroitement liée à la loi de Fisher et qui se distingue surtout par le fait qu'elle apparaît comme la loi d'un ensemble de statistiques d'échantillon qui sont des généralisations naturelles des statistiques sous-jacentes à la loi t de Student. La statistique tModèle:2 de Hotelling est une généralisation de la statistique t de Student qui est utilisée dans les tests d'hypothèses multivariées[2].

Motivation

La loi apparaît dans les statistiques multivariées lors de la réalisation de tests sur les différences entre les moyennes (multivariées) de différentes populations, où les tests pour les problèmes univariés utiliseraient un test t . La loi porte le nom de Harold Hotelling, qui l'a développée comme une généralisation de la loi t de Student[1].

Définition

Si le vecteur d est une loi normale multivariée avec une moyenne nulle et une matrice de covariance unitaire 𝒩(𝟎p,𝐈p,p) et M est une matrice p×p aléatoire suivant un loi de Wishart W(𝐈p,p,m) avec une matrice d'échelle unitaire et à m degrés de liberté, et d et M sont indépendants l'un de l'autre, alors la forme quadratique X suit une loi de Hotelling (de paramètres p et m[3])

mp+1pmXFp,mp+1

On peut montrer que si une variable aléatoire X suit la loi TModèle:2 de Hotelling, XTp,m2, alors[1]:

t2Tp,n12=p(n1)npFp,np,

Fp,mp+1 est la loi de Fisher de paramètres p et m − p + 1.

Statistique tModèle:2 d'Hotelling

Soit Σ^ la covariance de l'échantillon :

Σ^=1n1i=1n(𝐱i𝐱)(𝐱i𝐱)T

où l'exposant T désigne la transposition. On peut montrer que Σ^ est une matrice semi-définie positive et (n1)Σ^ suit une loi de Wishart p-variée à n − 1 degrés de liberté[4]. L'échantillon de matrice de covariance de la moyenne s'obtient par Σ^𝐱=Σ^/n .

La statistique tModèle:2 de Hotelling est alors définie comme[5]:

t2=n(𝐱μ)TΣ^𝐱1(𝐱μ),

qui est proportionnelle à la distance de Mahalanobis entre la moyenne de l'échantillon et μ . Pour cette raison, on devrait s’attendre à ce que la statistique prenne des valeurs faibles si 𝐱μ, et des valeurs élevées si elles sont différentes.

Par la définition de la loi,

X=mdTM1dT2(p,m).

Fp,np est la loi de Fisher avec les paramètres p et n − p .

Afin de calculer une valeur p (sans rapport avec la variable p ici), il faut remarquer que la loi de t2 implique de manière équivalente que

npp(n1)t2Fp,np.

Ensuite, on utilise la quantité sur le côté gauche pour évaluer la valeur p correspondant à l'échantillon, qui provient de la loi de Fisher. Un ellipsoïde de confiance peut également être déterminé en utilisant une logique similaire.

Motivation

Soit 𝒩p(μ,Σ) une loi normale p-variée de vecteur moyenne μ et matrice de covariance connue Σ. Soient

𝐱1,,𝐱n𝒩p(μ,Σ)

n variables aléatoires indépendantes identiquement distribuées (iid), qui peuvent être représentées comme p×1 vecteurs colonnes de nombres réels. On pose

𝐱=1nxi=1nx𝐱i𝐲=1nyi=1ny𝐲i

comme la moyenne de l'échantillon avec de covariance Σ𝐱=Σ/n . On peut montrer que

(𝐱μ)TΣ𝐱1(𝐱μ)χp2,

χp2 est la loi du chi carré avec p degrés de liberté.

Modèle:Démonstration

Statistique sur deux échantillons

Si on définit 𝐱1,,𝐱nxNp(μ,Σ) et 𝐲1,,𝐲nyNp(μ,Σ), avec les échantillons tirés indépendamment de deux lois normales multivariées indépendantes avec la même moyenne et la même covariance, et on pose

Σ^𝐱=1nx1i=1nx(𝐱i𝐱)(𝐱i𝐱)T
Σ^𝐲=1ny1i=1ny(𝐲i𝐲)(𝐲i𝐲)T

comme les moyennes des échantillons, et

Σ^=(nx1)Σ^𝐱+(ny1)Σ^𝐲nx+ny2

comme les matrices de covariance d'échantillon respectives. Alors

t2=nxnynx+ny(𝐱𝐲)TΣ^1(𝐱𝐲)T2(p,nx+ny2)

est l'estimateur non biaisé de la matrice de covariance groupée (une extension de la variance composite).

Enfin, la statistique tModèle:2 à deux échantillons de Hotelling est

nx+nyp1(nx+ny2)pt2F(p,nx+ny1p).

Notions associées

Cela peut être lié à la loi de Fisher par [4]

nx+nyp1(nx+ny2)pt2F(p,nx+ny1p;δ),

La loi non nulle de cette statistique est la loi de Fisher non centrée (le rapport d'une variable aléatoire suivant la loi du χ² non centrée et d'une variable aléatoire centrale indépendante suivant une loi du χ² )

δ=nxnynx+ny𝒅TΣ1𝒅,

avec

d1=x1y1,d2=x2y2

𝒅=𝐱𝐲 est le vecteur de différence entre les moyennes de la population.

Dans le cas à deux variables, la formule se simplifie bien, permettant d'apprécier comment la corrélation ρ entre les variables affecte t2 . Si l'on définit

d1=x1y1,d2=x2y2

et

s1=Σ11s2=Σ22ρ=Σ12/(s1s2)=Σ21/(s1s2)

alors

t2=nxny(nx+ny)(1ρ2)[(d1s1)2+(d2s2)22ρ(d1s1)(d2s2)]

Ainsi, si les différences entre les deux lignes du vecteur 𝐝=𝐱𝐲 sont du même signe, en général, t2 devient plus petit à mesure ρ devient plus positif. Si les différences sont de signes opposés, t2 devient plus grand à mesure ρ devient plus positif.

Un cas particulier univarié peut être trouvé dans le test t de Welch.

Des tests plus robustes et plus puissants que le test à deux échantillons de Hotelling ont été proposés dans la littérature, voir par exemple les tests basés sur la distance entre points qui peuvent également être appliqués lorsque le nombre de variables est comparable, voire supérieur, au nombre de sujets[6]Modèle:,[7].

Voir également

Références

Modèle:Traduction/Référence Modèle:Références

Liens externes

Modèle:Portail