Distance de Cook

De testwiki
Version datée du 28 janvier 2025 à 00:04 par imported>FDo64 (Projet:Correction syntaxique)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

En statistique, la distance de Cook est couramment utilisée pour estimer l'influence d'une donnée lors de l'utilisation de méthodes des moindres carrés[1].

Dans le cas général, de l'utilisation de la méthode des moindres carrés, la distance de Cook peut être utilisée de plusieurs façons : pour indiquer les données qu'il serait intéressant de vérifier ; pour indiquer les régions de l'espace de conception où il serait bon d'être en mesure d'obtenir plus de points de données. Ce nom vient du statisticien américain R. Dennis Cook, qui a introduit le concept en 1977[2]Modèle:,[3].

Définition

La distance de Cook mesure l'effet de la suppression d'une donnée. Les données avec d'importants résidus (Données aberrantes) et/ou fort effet de levier peuvent fausser le résultat et la précision d'une régression. Les points ayant une distance de Cook importante sont considérés comme méritant un examen plus approfondi dans l'analyse. Pour l'expression algébrique, il faut définir d'abord :

𝐇𝐗(𝐗𝐗)1𝐗

comme une matrice de projection (n×n) (matrice de projection des n observations de chaque variable explicative). Ensuite, nous avons β^(i), qui est l'estimation MCO de β qui résulte de l'omission de la i-ème observation (i=1,2,,n). Ensuite, nous avons[4] :

β^β^(i)=(11hi)(𝐗𝐗)1𝐱𝐢ei

ei est le résidu (i.e. la différence entre la valeur observée et la valeur prédite par le modèle proposé) pour l'individu i, et hii, défini comme :

hii𝐱i(𝐗𝐗)1𝐱i

est l'influence, i.e., le i-ème élément de la diagonale de 𝐇. Avec cela, nous pouvons définir la distance de Cook comme :

Di=ei2k MSE[hii(1hii)2],

k est le nombre de paramètres ajustés, et MSE est l'erreur quadratique moyenne du modèle de régression. L'expression suivante est algébriquement équivalente :

Di=(β^β^(i))𝐗𝐗(β^β^(i))(1+k)s2,

s2 est l'estimateur MCO de la variance du terme d'erreur, défini comme :

s2𝐞𝐞nk

Et une troisième expression équivalente est :

Di=j=1n(Y^j Y^j(i))2k MSE,

où :

Y^j est la prédiction du modèle de régression complète pour l'observation j ;
Y^j(i) est la prédiction pour l'observation j à partir d'un modèle de régression ajustée dans lequel l'observation i a été omise.

Détection des observations très influentes

Il y a des opinions différentes au sujet de quel seuil les valeurs à utiliser pour repérer des points sont très influents. Une directive opérationnelle simple de Di>1 a été suggérée[5]. D'autres ont indiqué que Di>4/n, où n i est le nombre d'observations, pourrait être utilisé[6].

Une approche conservatrice repose sur le fait que la distance de Cook a la forme W/p, où W est formellement identique au test de Wald que l'on utilise pour les tests que H0:βi=β0 en utilisant certaines β^[i]. Rappelant que W/p a une distribution Fp,np (avec p et n-p degrés de liberté), nous voyons que la distance de Cook est équivalent à la statistique F pour tester cette hypothèse, et nous pouvons donc utiliserFp,np,1α comme un seuil[7].

Notes et références

Modèle:Traduction/Référence Modèle:Références

Voir aussi

Bibliographie

Articles connexes

Modèle:Portail

  1. William Mendenhall, Terry Sincich, (1996).
  2. Dennis R. Cook (février 1977).
  3. Idem (mars 1979).
  4. Hayashi, Fumio (2000).
  5. Dennis R. Cook, Sanford Weisberg (1982).
  6. Kenneth A. Bollen, Robert W. Jackman (1990).
  7. Herman Aguinis, Ryan K. Gottfredson, Harry Joo (2013).