Coefficient RV

De testwiki
Aller à la navigation Aller à la recherche

En statistique, le coefficient RV[1] (pour rhô-vectoriel) est une généralisation multivariée du coefficient de corrélation de Pearson au carré (car le coefficient RV prend des valeurs comprises entre 0 et 1)[2]. Dans sa version population, il mesure le lien entre deux groupes de variables aléatoires en se basant sur la matrice de variance-covariance. Il peut être estimé via la matrice de covariance empirique calculée à partir d'un échantillon.

Les principales approches de l'analyse statistique multivariée des données peuvent toutes être intégrées dans un cadre commun dans lequel le coefficient RV est maximisé sous réserve de contraintes pertinentes. Plus précisément, ces méthodologies statistiques comprennent[1] :

Un exemple d'application du coefficient RV est en neuroimagerie fonctionnelle où il peut mesurer la similitude entre les séries de scans cérébraux de deux sujets[3] ou entre différents scans d'un même sujet[4].

Définitions

Supposons que le couples de variables aléatoires vectorielles (X,Y)p×q admette une matrice de variance covariance

(ΣXΣXYΣXYΣY).


La définition du coefficient RV fait intervenir idées[5] permettant de définir des grandeurs scalaires qui sont appelées «variance» et «covariance» de variables aléatoires à valeurs vectorielles. En utilisant ces définitions, le coefficient RV est alors défini de manière analogue au coefficient de corrélation entre variables univariées.

Quand les vecteurs aléatoires (vecteurs colonnes) sont centrés, on peut écrire

ΣXY=E(XY)

et la covariance scalaire (notée COVV) est définie par [5]

COVV(X,Y)=Tr(ΣXYΣYX).

La variance scalaire est définie de manière correspondante

VAV(X)=Tr(ΣXX2).

Avec ces définitions, la variance et la covariance ont certaines propriétés additives par rapport à la formation de nouvelles quantités vectorielles en étendant un vecteur existant avec les éléments d'un autre[5].

Alors le coefficient RV est défini par [5]

RV(X,Y)=COVV(X,Y)VAV(X)VAV(Y).

Défaut du coefficient et version ajustée

Par construction, le coefficient prend des valeurs comprises entre 0 et 1. Cependant, il atteint rarement des valeurs proches de 1 car le dénominateur est trop grand par rapport aux valeurs possibles du numérateur[6].

Étant donné deux matrices ΣXX and ΣYY de dimensions p×p et q×q respectively, en supposant sans perte de généralité que pq, on peut démontrer[7] que la valeur maximale possible du numérateur est Tr(ΛXΠΛY),ΛX (resp. ΛY) est la matrice des valeurs propres de ΣXX(resp. ΣYY) ordonnées de manière décroissante en partant du coin supérieur gauche et où Π est la matrice de taille p×q égale à (Ip 0p×(qp)).

À la suite de cela, Mordant et Segers[7] ont proposé une version ajustée du coefficient RV où le dénominateur prend la plus grande valeur atteignable du numérateur. Cette version ajustée est alors

RV¯(X,Y)=Tr(ΣXYΣYX)Tr(ΛXΠΛY)=Tr(ΣXYΣYX)j=1min(p,q)(ΛX)j,j(ΛY)j,j.

L'intérêt de cet ajustement est clairement visible dans certains cas en pratique[7].

Références

Modèle:TradRef Modèle:Références

Voir également

Modèle:Portail