Matrice des liaisons

De testwiki
Aller à la navigation Aller à la recherche

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par un ensemble de variables. La matrice des liaisons rassemble les indicateurs de liaison entre les variables prises deux à deux. Elle généralise la matrice des corrélations au cas où l’on dispose simultanément de variables quantitatives et de variables qualitatives.

Contexte

En statistique, il est utile de mesurer l’intensité de la liaison entre deux variables par un indicateur. Le plus connu est le coefficient de corrélation, ou son carré noté classiquement R2, calculé entre deux variables quantitatives.
Entre une variable quantitative et une variable qualitative, l’intensité de la liaison est mesurée par le carré du rapport de corrélation (noté classiquement η2)[b 1].
Entre deux variables qualitatives, les deux indicateurs classiques sont le phi2 (noté ϕ2) et le coefficient V de Cramer[b 2].

Lorsque l’on est en présence de plusieurs variables, il est utile de rassembler ces coefficients dans une matrice telle que, à l’intersection de la ligne j et de la colonne k on trouve la mesure d’intensité de la liaison entre les variables j et k. Ceci est fait couramment lorsque les variables sont toutes quantitatives, auquel cas on calcule la matrice des corrélations.

Définition

En présence de variables des deux types, une extension de la matrice des corrélations est la matrice des liaisons dans laquelle, à l’intersection de la ligne j et de la colonne k on trouve :

  1. si j et k sont quantitatives : R2(j,k).
  2. si j est quantitative et k qualitative : η2(j,k).
  3. si j et k sont qualitatives : ϕ2(j,k).

La diagonale de cette matrice comporte la valeur 1 si la variable est quantitative et le nombre de modalités moins 1 si la variable est qualitative.

Exemple numérique

Six individus (i1,...,i6) sont décrits par trois variables quantitatives (k1,k2,k3) et trois variables qualitatives (q1,q2,q3) ayant respectivement 3, 2 et 3 modalités. À partir des données du tableau 1, on calcule la matrice des liaisons du tableau 2.

Tableau 1. Données
k1 k2 k3 q1 q2 q3
i1 2 4.5 4 q1-A q2-B q3-C
i2 5 4.5 4 q1-C q2-B q3-C
i3 3 1 2 q1-B q2-B q3-B
i4 4 1 2 q1-B q2-B q3-B
i5 1 1 1 q1-A q2-A q3-A
i6 6 1 2 q1-C q2-A q3-A
Tableau 2. Matrice des liaisons associée au tableau 1.
k1 k2 k3 q1 q2 q3
k1 1 0.00 0.05 0.91 0.00 0.00
k2 0.00 1 0.90 0.25 0.25 1.00
k3 0.05 0.90 1 0.13 0.40 0.93
q1 0.91 0.25 0.13 2 0.25 1.00
q2 0.00 0.25 0.40 0.25 1 1.00
q3 0.00 1.00 0.93 1.00 1.00 2

Lecture

Variables quantitatives. Les variables k2 et k3 sont étroitement corrélées entre elles (R2=.90) et non corrélés à k1.

Variables qualitatives. La variable q1 n’est pratiquement pas liée à q2 (ϕ2=.25) et est liée à q3 (ϕ2=1). Les variables q2 et q3 sont liées (ϕ2=1).

Variables quantitatives et qualitatives. La variable k1 est liée uniquement (et étroitement) à q1 (η2=.91). Les variables k2 et k3 sont liées étroitement à q3 (η2=1 ou .93) et ne sont pas liées aux deux autres variables qualitatives (η2.4).

Synthèse et visualisation

Tableau 3. Tableau 2 dont les lignes et les colonnes ont été réordonnées selon le premier axe de l'AFDM.

De même qu’une matrice des corrélations peut être utilement visualisée par l’Analyse en composantes principales (ACP), une matrice des liaisons peut être utilement visualisée par l’Analyse Factorielle des Données Mixtes (AFDM)[b 3]. En particulier l’AFDM fournit un graphique dit « carré des liaisons »[b 4], sur lequel les variables quantitatives et qualitatives sont simultanément représentées. Si l’on réordonne les variables selon le premier axe de l’AFDM, la matrice des liaisons fait apparaître des groupes de variables liées entre elles. Si l’on veut expliciter des groupes, il vaut mieux ne pas imposer à ces groupes d’être disjoints puisqu’une variable qualitative peut être parfaitement liée à deux variables quantitatives non corrélées.
Dans l’exemple, cela conduit au tableau 3 dans lequel on peut voir trois groupes de variables :
k2,k3,q3 : ces trois variables caractérisent les individus i1 et i2.
q3,q2 : ces deux variables caractérisent les individus i3 et i4 (on pourrait aussi ajouter q1, liée à q3 mais pas à q2).
q1,k1 : ces deux variables opposent les individus i1,i5 et i2,i6.

Références

Ouvrages spécialisés

Modèle:Références

Voir aussi

Bibliographie


Modèle:Portail
Erreur de référence : Des balises <ref> existent pour un groupe nommé « b », mais aucune balise <references group="b"/> correspondante n’a été trouvée