Indice de Sørensen-Dice
LModèle:'indice de Sørensen-Dice, connu aussi sous les noms dModèle:'indice de Sørensen, coefficient de Dice et d'autres noms encore) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen[1] et Lee Raymond Dice[2] dans des articles publiés en 1948 et 1945 respectivement.
Noms et variantes
L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice[3] ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski[4].
L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms :
- Indice quantitatif de Sørensen-Dice, de Sørensen, de Dice[4],
- Distance de Bray-Curtis (l'opposée de la dissimilarité de Bray-Curtis)[4],
- Indice quantitatif de Czekanowski, de Steinhaus[4],
- Similarité en pourcentage de Pielou[4],
- L'opposée de la distance de Hellinger[5].
Formule
Pour des ensembles finis quelconques X et Y, l'indice s'exprime par :
- .
Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y :
- .
Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités[6]. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit[7] :
où nt est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, nx est le nombre de digrammes dans x et ny le nombre de digrammes dans y. Par exemple, pour calculer la similarité entre :
nightetnacht,
on calcule les digrammes de chaque mot :
ni,ig,gh,htna,ac,ch,ht
Chaque ensemble a quatre éléments, et leur intersection se réduit au seul élément ht. Avec la formule donnée ci-dessus, on obtient
- .
Différence avec l'indice de Jaccard
Le coefficient n'est pas très différent, dans sa forme, de l'indice de Jaccard qui est
- .
Toutefois, il ne vérifie pas l'inégalité triangulaire, et il ne peut être vu que comme une version « semi-métrique » de l'indice de Jaccard[4]. Contrairement à l’indice de Jaccard, la fonction
n'est pas une distance puis qu'elle ne vérifie pas l'inégalité triangulaire. Le contre-exemple le plus simple est donné par les trois ensembles {a}, {b}, et {a,b}. La distance entre {a} et {b} est égale à 1, alors que la distance de ces deux ensembles au troisième, {a,b}, est 1/3. Pour satisfaire l'inégalité triangulaire, la distance entre {a} et {b}, qui est égale à 1, devrait être inférieure à la somme des deux autres distances, qui n’est que 2/3.
Applications
Le coefficient de Sørensen-Dice est utilisé pour les données rencontrées dans la communauté écologique[8]. La raison de cet usage est plutôt empirique que théorique, même s'il peut être justifié théoriquement comme intersection de deux ensembles flous[9]. En comparaison avec la distance euclidienne, la distance de Sørensen est fine dans les ensembles hétérogènes de données, et donne moins de poids aux cas déviants[10]. Le coefficient de Dice et ses variantes trouvent un usage en lexicographie infographique, où il intervient dans la mesure du score d'association lexicale de deux mots[11]Modèle:,[12].
Le coefficient est également utilisé pour mesurer les performances d'algorithmes de segmentation d'images, notamment médicales[13]Modèle:,[14]. Il permet de calculer une mesure du recouvrement entre la réponse de l'algorithme et le résultat attendu. Le calcul de l'indice de Sørensen-Dice est dans ce cas analogue au calcul du F-score[15].
Articles liés
- Corrélation
- Indice et distance de Jaccard
- Distance de Hamming
- Test de Mantel
- Modèle:Lien
- Modèle:Lien
- Modèle:Lien
- Théorie des stratégies CSR
- Distance de Levenshtein
Notes et références
Lien externe
- Dice/Sorensen. Implémentation de l'indice de Dice/Sorenson dans le cadre du projet StringMetric, une bibliothèque de mesures de similarité et d'algorithmes phonétiques, en langage Scala.
- ↑ Modèle:Article
- ↑ Modèle:Article
- ↑ Modèle:Article
- ↑ 4,0 4,1 4,2 4,3 4,4 et 4,5 Modèle:Lien web.
- ↑ Modèle:Article
- ↑ Modèle:Ouvrage
- ↑ Modèle:Article
- ↑ Par exemple : Modèle:Article.
- ↑ Modèle:Article.
- ↑ Modèle:Ouvrage.
- ↑ Rychlý, P. (2008) A lexicographer-friendly association score. Proceedings of the Second Workshop on Recent Advances in Slavonic Natural Language Processing RASLAN 2008: 6–9
- ↑ Modèle:Lien web
- ↑ Modèle:Article
- ↑ Modèle:Article
- ↑ Modèle:Article