Régression des moindres carrés partiels

De testwiki
Version datée du 22 septembre 2024 à 18:16 par imported>Ornithorynque liminaire (+ Catégorie:Régression)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Infobox Méthode scientifique

La régression des moindres carrés partiels a été inventée en 1983 par Svante Wold et son père Herman Wold ; on utilise fréquemment l'abréviation anglaise régression PLS (Modèle:Citation étrangère et/ou Modèle:Citation étrangère). La régression PLS maximise la variance des prédicteurs (Xi) = X et maximise la corrélation entre X et la variable à expliquer Y. Cet algorithme emprunte sa démarche à la fois à l'analyse en composantes principales (ACP) et à la régression[b 1]Modèle:,[i 1]. Plus précisément, la régression PLS cherche des composantes, appelées variables latentes, liées à X et à Y, servant à exprimer la régression de Y sur ces variables et finalement de Y sur X[b 2].

Historique

En 1966, Herman Wold propose un algorithme nommé tout d'abord NILES (Modèle:Citation étrangère), puis NIPALS (Modèle:Citation étrangère) pour l'analyse en composantes principales[b 3]Modèle:,[i 1].

En 1975 il présente l'approche PLS, pour analyser les données exprimées en J blocs de variables sur les mêmes individus[b 4].

En 1983, Svante Wold (fils d'Herman Wold) et Harald Martens combinent NIPALS et l'approche PLS pour les adapter à la régression dans le cas où le nombre de variables est très supérieur au nombre d'observations (et où une forte multicollinearité est observée)[Note 1].

En 1989, Svante Wold, Nouna Kettaneh-Wold, et Bert Skagerberg présentèrent pour la première fois la régression PLS non linéaire[i 2].

En 1990 M. Stone et R. J. Brooks proposent une méthode paramétrique permettant d'employer la méthode PLS pour la régression linéaire multiple, la PLS et la régression sur composantes principales[i 1].

Régression PLS linéaire

Modèle

Illustration explicative de l'approche PLS
fig.01 Approche PLS : réseau de causalité entre quatre groupes de variables (d'après M.Tenenhaus[b 5])

Le modèle de l'approche PLS s'applique sur des blocs de variables continues appelées variables manifestes, chacun de ces blocs sont des observations effectuées sur les mêmes individus. On pense dans ce modèle que chaque bloc de variables peut être résumé par une variable latente. Les variables manifestes peuvent engendrer les variables latentes, elles sont appelées alors variables manifestes formatives, ou bien elles peuvent être engendrées par les variables latentes auquel cas elles sont dénommées variables manifestes réflectives[i 3]. Les variables latentes dites endogènes sont expliquées par les autres variables latentes, les variables latentes explicatives sont dénommées exogènes[i 3].

Comme les régressions linéaires, la régression PLS prend pour hypothèse le modèle (1)

Y=XB+ε

On recherche deux séries de matrices T et U de Modèle:Citation étrangère (cotes), P et Q de Modèle:Citation étrangère (charges) tels que

X=TP+EY=UQ+FT=XW*,

D'autre part, les cotes de X sont de bons prédicteurs de Y, ce qui s'écrit (4)

Y=TQ+G,

  • X est une matrice n×m de prédicteurs,
  • Y est une matrice n×p de variables réponses,
  • T et U sont des matrices n×l de cotes, composantes ou facteurs,
  • P et Q sont les matrices m×l et p×l des charges,
  • et les matrices E et F sont les termes d'erreur, présumés être i.i.d. normaux.

S. Wold et coll. expliquent ainsi les différentes matrices de la régression PLS :

Les matrices de cotes T multipliées par les matrices de charges P' sont un bon résumé de X garantissant que les termes de résidus E soient faibles. De même U et Q' sont de bons résumés de Y, minimisant F. Les cotes de X sont aussi de bons prédicteurs de Y (voir équ.(4) ci-dessus)[i 4].

Les résidus G expriment l'écart entre l'observation et le modèle. On retrouve le modèle de régression multivarié (1)

Y=XW*Q+Foù B=W*Q,

Algorithme

fig.02 : Algorithme général de la régression PLS d'après Svante Wold et coll[i 4].

L'algorithme PLS, inspiré de l'approche PLS et de NIPALS, est itératif[i 5]. Chaque étape de l'itération produit une composante.

L'algorithme classique de la régression PLS multivariée (PLS2) est défini ci-dessous[b 6] :

Si arang(X)
Étape1 – X0X, Y0Y
Étape2 – pour h=1,2,,a
Étape2.1 – uhYh1[,1]
Étape2.2 – répéter jusqu'à convergence de wh
Étape2.2.1 – whX'h1uh/u'huh
Étape2.2.2 – normer wh à 1
Étape2.2.3 – thXh1wh/w'hwh
Étape2.2.4 – chY'h1th/t'hth
Étape2.2.5 – uhYh1ch/c'hch
Étape2.3 – phX'h1th/t'hth
Étape2.4 – XhXh1thp'h
Étape2.5 – YhYh1thc'h

La qualité de l'estimation est estimée par validation croisée, ou bien à l'aide du R2 ou du Q2 de Stone-Geisser[b 7].

L'interprétation se fait de la même manière qu'en analyse en composante principale, à l'aide de graphes montrant les observations sur les axes des variables latentes[i 6]. Les paramètres t et u sont porteurs des similarités/dissimilarités entre les objets (individus)[i 4]. Toujours d'après S. Wold et coll, les poids w et c donnent des informations sur les corrélations entre Y et X. Les résidus de Y servent à apprécier l'ajustement au modèle, les résidus de X servent à détecter les valeurs aberrantes.

Géométriquement, la régression PLS est une projection sur un hyperplan de l'espace des X, de telle manière que ce plan soit une bonne estimation du nuage de points des X et dont les coordonnées des projections (les p) soient de bons prédicteurs des Y[i 4].

Régression PLS non linéaire

Modèle:Voir Il y a au moins deux manières d'introduire la non-linéarité dans l'approche PLS : la première consiste en une transformation non linéaire des données d'observations pour ensuite effectuer une régression linéaire PLS sur ces données transformées, la seconde consiste à supposer que les variables latentes t et u sont liées par des relations non linéaires[i 2]Modèle:,[i 7].

Dans la première catégorie se trouvent des méthodes telles que : INLR de Anders Berglund et Svante Wold (Modèle:Citation étrangère) ajoute les carrés des variables X aux variables prédicteurs[i 8].

Alors que dans la seconde, on peut lister :

  • La méthode PLS quadratique, proposée par S. Wold Modèle:Et al. en 1989, qui consiste à remplacer la relation linéaire entre les variables t et u par une relation polynomiale du second degré.
  • I. E. Frank expose en 1990 le modèle NLPLS (Modèle:Citation étrangère) où la relation, entre les mêmes variables internes que ci-dessus, est exprimée par des fonctions lissantes.
  • Toujours S. Wold en 1992, remplace la relation polynomiale de 1989 par une relation via des fonctions splines dans un modèle dénommé SPLPLS[i 7].
  • Dans GIFI – PLS[i 8], on remplace la variable X par une série de variables constituées à partir de X et des classes de valeurs de X, puis on applique la régression PLS sur ces nouvelles variables.

Notes et références

Notes

  1. voir fig.01 pour un exemple de modèle structurel dans l'approche PLS.

Références

Ouvrages spécialisés

Modèle:Références

Articles publiés sur internet

Modèle:Références

Bibliographie

Modèle:Portail
Erreur de référence : Des balises <ref> existent pour un groupe nommé « b », mais aucune balise <references group="b"/> correspondante n’a été trouvée
Erreur de référence : Des balises <ref> existent pour un groupe nommé « i », mais aucune balise <references group="i"/> correspondante n’a été trouvée