Méthode de Ward

De testwiki
Version datée du 2 janvier 2025 à 17:13 par imported>Vega (paragraphes, ortho, style, wikif + demande de précisions)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Bandeau homonymie Modèle:Infobox Méthode scientifique

En statistique, plus particulièrement en classification hiérarchique, la méthode de Ward est un algorithme permettant de regrouper deux Modèle:Quoi d'une Modèle:Quoi pour obtenir une partition plus agrégée.

Définitions

Inertie

Si G={ei:i={1:n}} est un groupe d'individus, de centre de gravité g, partitionné en k classes d'effectifs n1,n2,..,nk qu'on appellera G1,G2,..,Gk qui ont pour centres de gravité g1,g2,..,gk alors[1]

l'inertie totale du nuage est égale à : It=1ni=1nd(ei,g)2d est une distance
l'inertie interclasse est égale à : Ie=1ni=1kni×d(gi,g)2
l'inertie intraclasse est égale à : Ia=1ni=1keGid(e,gi)2

Méthode

On initialise la méthode avec autant de classes que d’éléments. Chaque classe contient un unique élément. L’inertie inter est donc maximale puisqu’il n’y a pas d’inertie intra. Ensuite, on construit les clusters de manière à minimiser la diminution de l’inertie inter. En effet, l’inertie inter ne peut que diminuer lors de regroupements. À chaque étape, les deux éléments ou clusters qui seront fusionnés sont donc ceux qui minimisent la diminution de la variabilité inter : on souhaite en effet que la variabilité inter reste la plus grande possible. D’après le théorème d’Huygens, minimiser l’augmentation de l’inertie intra revient au même. Cette méthode requiert donc un nombre considérable de calculs puisqu’il est nécessaire, à chaque étape, de considérer l’ensemble des possibilités de regroupement.

Algorithmiquement, à chaque étape, il s'agit de tester l’ensemble des regroupements possibles et conserver uniquement l’opération qui minimise le résultat du calcul de suivant :

  1. Déterminer le centre de gravité des clusters existants ;
  2. Calculer la distance euclidienne entre chaque élément d’un cluster et le centre de gravité de ce cluster ;
  3. Mettre au carrée l’ensemble de ces distances puis les sommer ;
  4. Sommer les résultats obtenus en 3 pour l’ensemble des clusters.

Progressivement, les objets sont agglomérés les uns un autres en respectant ce critère jusqu’à ce que le nombre de cluster souhaité soit atteint.

Notes et références

Modèle:Références

Voir aussi

Bibliographie

Modèle:Légende plume

Articles connexes

Liens externes

Modèle:Palette Probabilités et statistiques Modèle:Portail