Corrélation fallacieuse entre des rapports

De testwiki
Aller à la navigation Aller à la recherche
Illustration d'une corrélation de rapports fallacieuse. Le nuage de points contient 500 points où les rapports z/x sont en ordonnée et les rapports y/z sont en abscisse. Le coefficient de corrélation linéaire entre ces rapports est de 0,53, même si x, y et z sont statistiquement indépendants (c'est-à-dire que le coefficient de corrélation linéaire est nul entre n'importe quelle paire de variables). Une échelle de couleur (en bas à la droite) permet de « qualifier » la valeur de z.

Une corrélation fallacieuse entre des rapports est une forme de Modèle:Lien qui apparaît entre des rapports de mesures absolues, lesquelles présentent un coefficient de corrélation linéaire nul[1].

Ce phénomène apparaît régulièrement dans le domaine des données compositionnelles, qui porte sur l'analyse de variables qui n'apportent que des informations relatives, telles que proportions, pourcentages et parties par million [2]Modèle:,[3].

La corrélation fallacieuse entre des rapports est distincte de l'effet cigogne (un coefficient de corrélation fort n'implique pas la causalité).

Exemple

Le mathématicien britannique Karl Pearson a donné un exemple de corrélation fallacieuse entre des rapports[1] : « Prenez trois nombres au hasard dans une certaine étendue de valeurs, que nous appelons x, y et z. Nous trouverons une paire et une [autre] paire corrélée. Formons les fractions x/y et z/y pour chaque triplet de nombres ; nous trouverons une corrélation entre ces rapports. »Modèle:Trad

Le schéma dans le haut à la droite de cette page démontre visuellement cette affirmation. Il comprend 500 points calculés à partir de 500 triplets de variables x, y et z selon les consignes de Pearson. Les trois variables x, y et z sont tirées d'une distribution normale de moyennes 10, 10 et 30, respectivement, et d'écarts-types de 1, 1 et 3 respectivement. Mathématiquement, les trois variables sont tirées de :

x,yN(10,1)zN(30,3)

Même si x, y et z sont statistiquement indépendants et donc de corrélation nulle, dans le schéma, les rapports z/x et y/z présentent une corrélation de Modèle:Unité. La variable commune (z) explique cette tendance ; celle-ci est plus facile à découvrir si les points du graphique sont colorés selon la valeur de z. Les triplets (x, y, z) dont la valeur de z est élevée apparaissent dans le bas à la gauche du nuage de points ; les triplets dont la valeur de z est faible apparaissent le plus souvent dans le haut à la droite (la couleur des points indique la valeur relative de z).

Valeur approximative

Karl Pearson a obtenu une approximation de la corrélation fallacieuse qui serait observée entre deux variables (x1/x3 et x2/x4), c'est-à-dire les rapports des mesures absolus x1,x2,x3,x4 :

ρ=r12v1v2r14v1v4r23v2v3+r34v3v4v12+v322r13v1v3v22+v422r24v2v4

vi est le coefficient de variation de xi, et rij est le coefficient de corrélation de Bravais-Pearson entre xi et xj.

L'expression à la droite de l'équation peut être simplifiée dans les situations où il existe une diviseur commun en posant x3=x4 et x1,x2,x3 ne sont pas corrélées, ce qui donne le coefficient de corrélation fallacieuse :

ρ0=v32v12+v32v22+v32.

Dans le cas où tous les coefficients de variation sont égaux (comme dans l'exemple illustré plus haut), ρ0=0.5.

Importance en biologie et d'autres sciences

Karl Pearson, tout comme Francis Galton[4] et Walter Frank Raphael Weldon[1], a mis en garde les scientifiques contre la corrélation fallacieuse, particulièrement en biologie[5] où il est courant de normaliser des mesures en les divisant par une variable particulière ou leur somme. Il craignait que les conclusions s'appuieraient sur des corrélations qui sont causées par la méthode d'analyse, plutôt que par un lien entre les variables.

Néanmoins, la corrélation fallacieuse entre des rapports est peu connue parmi les scientifiques. Par exemple, en 1986, John Aitchison, qui est l'un des pionniers dans l'usage des rapports de logarithmes (log-ratio) dans le domaine des données compositionnelles écrit[2] : Modèle:CitaBloc

Des articles publiés dans les années 2010 laissent penser que les scientifiques sont abusés par des résultats, au moins en biologie moléculaire[6]Modèle:,[7].

Notes et références

Modèle:TradRef

Citations originales

Modèle:Références

Références

Modèle:Références

Voir aussi

Articles connexes

Liens externes

Modèle:Portail