Ajustement affine

De testwiki
Aller à la navigation Aller à la recherche
Nuage de points et sa droite d'ajustement

En mathématiques, un ajustement affine[1] est la détermination d’une droite approchant au mieux un nuage de points dans le plan.

Il est utilisé notamment en analyse de données pour évaluer la pertinence d’une relation affine entre deux variables statistiques, et pour estimer les coefficients d’une telle relation. Il permet aussi de produire une droite de tendance pour formuler des prévisions sur un comportement futur proche ou une interpolation entre deux mesures effectuées.

L’ajustement affine peut être obtenu par régression linéaire, en particulier par la méthode des moindres carrés, ou par d’autres méthodes reposant par exemple sur une segmentation des valeurs pour utiliser les phénomènes de lissage. Ces méthodes sont plus ou moins adaptées selon le contexte d’obtention des données (mesures expérimentales avec bruit, série chronologique, fonction de répartition empirique, agrégation de résultats partiels...) et les ressources disponibles en temps de calcul ou espace mémoire.

Certaines de ces méthodes se généralisent pour plus de deux variables avec la régression linéaire multiple et l’analyse en composantes principales.

Régression linéaire

On note Modèle:Math le nuage de points que l'on cherche à ajuster par une droite Modèle:Math.

Une méthode de régression linéaire consiste à minimiser les résidus Modèle:Math, c’est-à-dire la distance de chaque point Modèle:Mvar à la droite Modèle:Mvar dans la direction de l’axe des ordonnées. Mais comme les points ne sont en général pas déjà alignés, il n’est pas possible de minimiser simultanément toutes ces distances. On distingue donc plusieurs méthodes selon la façon d’agréger ces distances.

Méthode des moindres carrés

Modèle:Article détaillé Cette méthode consiste à minimiser la somme des carrés des résidus, définie par : Modèle:Retrait

Quelle que soit la répartition des points, il existe une unique droite qui minimise Modèle:Mvar, dont les coefficients s’écrivent Modèle:Retrait Modèle:RetraitModèle:Surligner est la moyenne des abscisses Modèle:Surligner est la moyenne des ordonnées : Modèle:Retrait Modèle:Math est la variance des abscisses Modèle:Retrait et Modèle:Math est la covariance des couples de coordonnées Modèle:Retrait

L’expression de l’ordonnée à l’origine Modèle:Mvar montre que la droite ainsi définie passe par l’isobarycentre des points, de coordonnées Modèle:Math.

Il existe plusieurs démonstrations possibles pour justifier ces valeurs[2] dont une consiste à considérer Modèle:Mvar, pour Modèle:Mvar donné, comme une fonction du second degré en Modèle:Mvar dont on peut déterminer le minimum, puis, ce Modèle:Mvar étant exprimé par sa valeur en fonction de Modèle:Mvar, trouver le minimum de la fonction du second degré en Modèle:Mvar. Modèle:Démonstration

La qualité de l’ajustement affine est alors mesurée par le coefficient de corrélation linéaire Modèle:RetraitModèle:Mvar et Modèle:Mvar sont les écarts types des deux variables statistiques. Il intervient dans l'évaluation de la somme des carrés des résidus :

Modèle:Retrait

Plus le coefficient de corrélation est proche de 1 ou –1, et plus la somme des carrés des résidus est voisine de 0. Le coefficient de corrélation est donc un bon indicateur de la validité de l'ajustement affine.

On peut aussi comprendre le rôle d'indicateur du coefficient de corrélation en observant le graphique centré sur le point moyen (de coordonnées Modèle:Math). Si l'ajustement affine n'est pas légitime, il y aura grossièrement autant de points dans chacun des quadrants et les produits Modèle:Formule seront de signes différents et se compenseront mutuellement quand on en fera la somme conduisant ainsi à un Modèle:Mvar petit en valeur absolue. Tandis que si l'ajustement affine est légitime, il y aura deux quadrants, de part et d'autre du point moyen, qui contiendront l'essentiel des points et les points correspondants seront donc caractérisés par le même signe dans le produit Modèle:Formule, signe qui deviendra ainsi très largement majoritaire et que l'on retrouvera dans leur somme, ce qui conduit à une valeur de Modèle:Mvar grande en valeur absolue.

Enfin, l'inégalité de Cauchy-Schwarz permet d'affirmer que Modèle:Retrait

avec égalité seulement si les Modèle:Math sont proportionnels aux Modèle:Math. Donc Modèle:Math avec égalité seulement s'il existe un réel Modèle:Mvar tel que, pour tout Modèle:Mvar, Modèle:Formule. Ainsi, plus Modèle:Math est proche de 1 plus l'ajustement affine semble légitime.

Une autre méthode d'interpréter le rôle joué par le coefficient de corrélation est d'observer les fluctuations de Modèle:Mvar autour de sa moyenne. Il existe deux phénomènes qui expliquent ces fluctuations. D'une part, on sait que Modèle:Mvar est considéré comme proche d'une fonction affine de Modèle:Mvar. Quand Modèle:Mvar fluctue autour de sa moyenne avec une variance de Modèle:Math, Modèle:Math fluctue autour de sa moyenne Modèle:Surligner avec une variance de Modèle:Math, cette quantité s'appelle la variance expliquée. L'autre raison de fluctuation de Modèle:Mvar est que le nuage de points n'est pas situé sur la droite d'ajustement : les valeurs Modèle:Mvar et Modèle:Math peuvent être différentes. On démontre, à partir de l'expression précédente de Modèle:Mvar, que la variance est la somme de la variance expliquée et de la variance résiduelle c'est-à-dire Modèle:Math.

Le rapport de corrélation est le rapport entre la variation expliquée (inévitable puisque Modèle:Mvar fluctue) et la variance totale. Ce rapport de corrélation est égal au carré du coefficient de corrélation Modèle:Math. Plus le rapport de corrélation est proche de 1, plus la variance expliquée est proche de la variance totale et plus la variance résiduelle est faible, donc meilleur est l'ajustement affine.

Ajustement affine de X par Y

Comparaison d'un ajustement de Modèle:Mvar par Modèle:Mvar et de Modèle:Mvar par Modèle:Mvar.

On peut également ajuster le nuage de points en expliquant Modèle:Mvar par Modèle:Mvar, c'est-à-dire en cherchant la droite Modèle:Math d'équation Modèle:Math qui rend minimale la somme des carrés des distances Modèle:MvarModèle:Mvar est le projeté de Modèle:Mvar sur Modèle:Math parallèlement à l'axe des abscisses.

Les coefficients Modèle:Mvar et Modèle:Mvar sont alors données par Modèle:Retrait Modèle:Retrait

Cette droite passe aussi par le point moyen mais n'a pas toujours même pente que la précédente. Les droites ont même pente si Modèle:Mvar et Modèle:Mvar sont inverses l'un de l'autre, donc si Modèle:Mvar vaut 1, or Modèle:Mvar correspond à Modèle:Math. On retrouve ainsi le résultat : l'ajustement de Modèle:Mvar par Modèle:Mvar donne la même droite que l'ajustement de Modèle:Mvar par Modèle:Mvar seulement si le coefficient de corrélation vaut 1 ou –1.

Interprétation en géométrie euclidienne de dimension n

Dans l'espace n, muni du produit scalaire canonique, on considère le vecteur Modèle:Mvar de coordonnées Modèle:Math, le vecteur Modèle:Mvar de coordonnées Modèle:Math, le vecteur Modèle:Mvar de coordonnées (1, 1, ..., 1).

On peut remarquer que

  • XU=nx
  • YU=ny
  • XYnxy=nCov(x,y)
  • XXnx2=nV(x)
  • YYny2=nV(y)

Rechercher la droite qui minimise la somme des carrés des résidus, c'est rechercher les réels Modèle:Mvar et Modèle:Mvar tels que ||Y(aX+bU)||2soit minimale. Cette norme sera minimale si et seulement si Modèle:Math est le projeté orthogonal de Modèle:Mvar dans l'espace vectoriel engendré par Modèle:Mvar et Modèle:Mvar, donc dès que

  • (YaXbU)U=0
  • (YaXbU)X=0

La première égalité se traduit par

nyanxnb=n(yaxb)=0

ce qui donne bien pour Modèle:Mvar la valeur précédemment trouvée. La seconde égalité se traduit alors par

YXaXX+xUXyUX=0
YXaXX+nx2nyx=0
nCov(x,y)anV(x)=n(Cov(x,y)aV(x))=0

ce qui donne bien pour Modèle:Mvar la valeur précédemment trouvée.

On peut déterminer le cosinus de l'angle Modèle:Mvar que forment entre eux les vecteurs Modèle:Math et Modèle:Mvar par la formule

cos(θ)=(YyU)(XxU)||YyU||×||XxU||=nCov(x,y)nV(y)×nV(x)=r.

Cette égalité a du sens au regard du résultat donné par l'inégalité de Cauchy-Schwarz plus tôt. Le coefficient de corrélation peut donc être comme le cosinus de l'angle entre les deux vecteurs Modèle:Mvar et Modèle:Mvar. Un coefficient de corrélation de 1 signifie que l'angle entre ces deux vecteurs est nul (alignement parfait), un coefficient de –1 donne un angle géométrique de Modèle:Math entre les deux vecteurs (vecteur de même direction mais de sens opposés) et si le coefficient de corrélation linéaire est en valeur absolue supérieur à Modèle:Math alors l'angle géométrique formé par les deux vecteurs est inférieur à Modèle:Math ou supérieur à Modèle:Math.

Minimisation de la somme des distances

Il peut sembler plus simple de chercher à minimiser la somme des distances des points à la droite, plutôt que la somme de leur carré. Cette méthode a d’ailleurs été développée antérieurement[3] à la méthode des moindres carrés. Mais il n’y a alors pas nécessairement unicité de la droite optimale, et la détermination des coefficients est beaucoup moins aisée.

Une telle droite optimale passe toujours par deux des points considérés[4].

Sélection et segmentation

Dans le cas où les points du nuage ont des abscisses différentes deux à deux, en particulier dans le cas de séries chronologiques, certaines méthodes d’ajustement reposent sur la sélection de certains points censés être plus représentatifs ou le découpage de l’ensemble des points en deux ou trois parties consécutives en abscisse.

Méthode des points observés

Une méthode simpliste mais facile à mettre en œuvre sans calcul, par exemple pour tracer à la main une droite de tendance sur une représentation graphique, consiste à tracer la droite reliant deux points visiblement dans l’alignement des autres[5].

Méthode des points extrêmes

Une méthode plus systématique que la précédente consiste à relier les deux points d’abscisses minimale et maximale[6].

Méthode de Mayer

Ajustement affine par la méthode de Mayer

Cette méthode d'ajustement est plus simple à mettre en place. Elle semble avoir été utilisée par Leonhard Euler et Tobias Mayer[7]. Elle consiste, après avoir rangé les couples Modèle:Math selon l'ordre croissant des Modèle:Mvar, à partager le nuage en deux nuages de taille égale, à déterminer le point moyen de chacun des sous-nuages, et à tracer la droite reliant ces deux points moyens.

Méthode médiane-médiane

Modèle:Article détaillé Elle consiste à ranger les couples Modèle:Math selon l'ordre croissant des Modèle:Mvar, partager alors la population en trois sous-populations de même taille (à une unité près), et rechercher dans chaque population la médiane des Modèle:Mvar et celle des Modèle:Mvar. Ce qui conduit à trois couples de médianes définissant trois points : Modèle:Math, Modèle:Math et Modèle:Math. La droite d'ajustement est la droite passant par l'isobarycentre de ces trois points et parallèle à la droite Modèle:Math[8].

Analyse en composantes principales

Minimisation des distances par projection orthogonale sur une droite

Étant donné une famille de points du plan, il existe une unique droite du plan qui minimise la somme des distances au carré des points à la droite, pour peu que la covariance entre abscisses et ordonnées soit non nulle ou que la variance des abscisses soit différente de celle des ordonnées. Cette droite passe alors par l’isobarycentre des points.

Plus généralement, étant donné une famille de vecteurs de n, le choix d’un sous-espace affine qui minimise la somme des carrés des distances se ramène à l’analyse en composantes principales : la matrice de covariance est symétrique positive, diagonalisable, et la somme des sous-espaces propres associés aux valeurs propres les plus grandes donne la direction d’un sous-espace affine passant par l’isobarycentre des points.

Ce procédé n’a de sens que si les coordonnées sont homogènes, par exemple si elles représentent des grandeurs exprimées avec la même unité. Sinon, on peut éventuellement normaliser au préalable chaque coordonnée pour que les variances soient identiques.

Utilisation

Vraisemblance d’une corrélation

Nuage de points illustrant une indépendance vraisemblable des variables Modèle:Mvar et Modèle:Mvar

Dans le cadre de la régression linéaire, l’ajustement affine permet de tester l’existence d’une corrélation linéaire entre deux variables.

Formulation de prévision et interpolation

Pour une valeur en abscisse non représentée dans le nuage de points, on peut estimer une valeur en ordonnée en lui appliquant la fonction affine obtenue par ajustement affine.

Prévisions à partir de l’ajustement affine d’un nuage de points

Par exemple, le graphique ci-contre représente les réponses à des sondages effectués sur la période 1992-2006 concernant le pourcentage de personnes dans la tranche 15-44 ans ayant déjà goûté au cannabis. Chaque point correspond à un sondage avec sa date en abscisse et le pourcentage d'expérimentateurs en ordonnées. Le nuage de points semble s'organiser selon une droite qui permet d'estimer qu'un sondage en 2008 aurait donné 42 % de réponses positives et qu'un sondage en 1994 aurait donné environ 20 % de réponses positives.

Le tracé d'une droite d'ajustement n'induit pas qu'il existe une relation de cause à effet entre les deux phénomènes mesurés et les extrapolations que l'on est tenté d'effectuer doivent se limiter aux voisinages proches du nuage de points car, au-delà des frontières de l'étude, le comportement relatif des deux variables peut très bien ne plus être affine. Modèle:Clear

Ajustement à d’autres courbes

Comportement non linéaire d'un nuage de points

Si le nuage de points semble indiquer une fonction exponentielle, on peut tenter un ajustement affine sur le logarithme naturel des ordonnées Modèle:Math, en fonction de Modèle:Mvar. En effet si Modèle:Math alors Modèle:Math

Si le nuage de points semble indiquer une fonction puissance, l'ajustement affine se tentera sur Modèle:Math et Modèle:Math car si Modèle:Math alors Modèle:Math

Notes et références

Modèle:Références

Voir aussi

Bibliographie

  • Transmath, Term ES, programme 2002, Nathan
  • Dany-Jack Mercier, Cahiers de mathématiques du supérieur, volume1 : Statistiques, probabilités, homothéties, Éditions Publibook, 2010, Modèle:Isbn

Modèle:Palette Modèle:Portail

  1. Cette terminologie est référencée par exemple dans le programme de mathématiques de terminale en section technologique du baccalauréat et du programme du CAPES interne de sciences économiques et sociales en France.
  2. Voir par exemple, Dany-Jack Mercier, Cahiers de mathématiques du supérieur, volume 1 : Statistiques, probabilités, homothéties, p. 34 et suivantes, Editions Publibook, 2010, Modèle:Isbn
  3. La méthode de minimisation de la somme des distances des points à la droite a été proposée en 1757, soit 50 ans avant celle des moindres carrés, selon Gilbert Saporta, Probabilités, analyse de données et statistique, § 16.5 « Une méthode de régression robuste », Éditions Technip, Paris 2011.
  4. D. Birkes, Y. Dodge, Alternative methods of regression, Wiley 1993.
  5. Cours de Christophe Chéneau p. 13
  6. Présentation de la méthode sur le site de Sylvie Lacoste
  7. Ajustement affine sur le site Apprendre en ligne
  8. Modèle:En Elizabeth J. Walters, Christopher H. Morrell, and Richard E. Auer, An Investigation of the Median-Median Method of Linear Regression, Journal of Statistics Education Volume 14, Numéro 2 (2006)