Indice de Davies-Bouldin

De testwiki
Version datée du 26 janvier 2022 à 21:07 par imported>Fschwarzentruber
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

En apprentissage automatique, plus précisément en classification automatique, l'indice de Davies-Bouldin est une mesure de qualité d'une partition d'un ensemble de données, introduite par David L. Davies et Donald W. Bouldin en 1979[1].

Définition

C'est la moyenne du rapport maximal entre la distance d'un point au centre de son groupe et la distance entre deux centres de groupes.

Expression

Position du problème

Si l'on note X la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note N le nombre d'individus et p le nombre de prédicteurs :

X=(x11...xp1x1N...xpN)

Notons d(xi,xi) la dissimilarité entre les individus xi=(x1i,...,xpi) et xi=(x1i,...,xpi) (respectivement, ligne i et ide X). Notons K2 le nombre de groupes que l'on souhaite former.

Un algorithme de partitionnement donnera une fonction d'attribution C:[[1,N]][[1,K]] dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe k est alors donné par Ik={i[[1,N]]/ C(i)=k}.

Expression de l'indice de Davies-Bouldin

L'indice (ou score) de Davies-Bouldin, SDB, se base sur les points moyens de chaque groupe μk=1|Ik|iIkxi et la distance moyenne entre un point et le centre de son groupe δ¯k=1|Ik|iIkd(xi,μk).

Il aura pour expression[2] :

SDB=1Kk=1Kmaxkk(δ¯k+δ¯kd(μk,μk)) Elle peut varier un peu selon les implémentations (distance imposée ou choix limité).

Propriétés

Domaine de variation

L'indice de Davies-Bouldin varie entre 0 (meilleure classification) et + (pire classification).

Complexité


Notes et références

Voir aussi

Modèle:Portail