Indice de Calinski-Harabasz

De testwiki
Aller à la navigation Aller à la recherche

L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique

C'est le rapport entre la variance inter-groupes et la variance intra-groupe.

Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.

Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.

Expression

Position du problème

Si l'on note X la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note N le nombre d'individus et p le nombre de prédicteurs :

X=(x11...xp1x1N...xpN)

Notons d(xi,xi) la dissimilarité entre les individus xi=(x1i,...,xpi) et xi=(x1i,...,xpi) (respectivement, ligne i et ide X). Notons K2 le nombre de groupes que l'on souhaite former.

Un algorithme de partitionnement donnera une fonction d'attribution C:[[1,N]][[1,K]] dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe k est alors donné par Ik={i[[1,N]]/ C(i)=k}.

Expression de l'indice de Calinski-Harabasz

Notons μk=1|Ik|iIkxi le point moyen du groupe k et μ=1Ni=1Nxi le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz, SCH, se base sur la variance inter-groupes B=k=1K|Ik|μkμ2 et les variances intra-groupes Wk=iIkxiμk2.

Il aura pour expression[1] :

SCH=(NK)B(K1)k=1KWk


Propriétés

Domaine de variation

L'indice de Calinski-Harabasz varie entre 0 (pire classification) et + (meilleure classification). Il dépend fortement de N (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec N. Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.

Complexité


Notes et références

Voir aussi

Modèle:Portail