Corrélation fallacieuse entre des rapports

Une corrélation fallacieuse entre des rapports est une forme de Modèle:Lien qui apparaît entre des rapports de mesures absolues, lesquelles présentent un coefficient de corrélation linéaire nul[1].
Ce phénomène apparaît régulièrement dans le domaine des données compositionnelles, qui porte sur l'analyse de variables qui n'apportent que des informations relatives, telles que proportions, pourcentages et parties par million [2]Modèle:,[3].
La corrélation fallacieuse entre des rapports est distincte de l'effet cigogne (un coefficient de corrélation fort n'implique pas la causalité).
Exemple
Le mathématicien britannique Karl Pearson a donné un exemple de corrélation fallacieuse entre des rapports[1] : « Prenez trois nombres au hasard dans une certaine étendue de valeurs, que nous appelons x, y et z. Nous trouverons une paire et une [autre] paire corrélée. Formons les fractions x/y et z/y pour chaque triplet de nombres ; nous trouverons une corrélation entre ces rapports. »Modèle:Trad
Le schéma dans le haut à la droite de cette page démontre visuellement cette affirmation. Il comprend 500 points calculés à partir de 500 triplets de variables x, y et z selon les consignes de Pearson. Les trois variables x, y et z sont tirées d'une distribution normale de moyennes 10, 10 et 30, respectivement, et d'écarts-types de 1, 1 et 3 respectivement. Mathématiquement, les trois variables sont tirées de :
Même si x, y et z sont statistiquement indépendants et donc de corrélation nulle, dans le schéma, les rapports z/x et y/z présentent une corrélation de Modèle:Unité. La variable commune (z) explique cette tendance ; celle-ci est plus facile à découvrir si les points du graphique sont colorés selon la valeur de z. Les triplets (x, y, z) dont la valeur de z est élevée apparaissent dans le bas à la gauche du nuage de points ; les triplets dont la valeur de z est faible apparaissent le plus souvent dans le haut à la droite (la couleur des points indique la valeur relative de z).
Valeur approximative
Karl Pearson a obtenu une approximation de la corrélation fallacieuse qui serait observée entre deux variables ( et ), c'est-à-dire les rapports des mesures absolus :
où est le coefficient de variation de , et est le coefficient de corrélation de Bravais-Pearson entre et .
L'expression à la droite de l'équation peut être simplifiée dans les situations où il existe une diviseur commun en posant et ne sont pas corrélées, ce qui donne le coefficient de corrélation fallacieuse :
Dans le cas où tous les coefficients de variation sont égaux (comme dans l'exemple illustré plus haut), .
Importance en biologie et d'autres sciences
Karl Pearson, tout comme Francis Galton[4] et Walter Frank Raphael Weldon[1], a mis en garde les scientifiques contre la corrélation fallacieuse, particulièrement en biologie[5] où il est courant de normaliser des mesures en les divisant par une variable particulière ou leur somme. Il craignait que les conclusions s'appuieraient sur des corrélations qui sont causées par la méthode d'analyse, plutôt que par un lien entre les variables.
Néanmoins, la corrélation fallacieuse entre des rapports est peu connue parmi les scientifiques. Par exemple, en 1986, John Aitchison, qui est l'un des pionniers dans l'usage des rapports de logarithmes (log-ratio) dans le domaine des données compositionnelles écrit[2] : Modèle:CitaBloc
Des articles publiés dans les années 2010 laissent penser que les scientifiques sont abusés par des résultats, au moins en biologie moléculaire[6]Modèle:,[7].