Indice et distance de Jaccard

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Voir homonymes L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la Modèle:Lien entre des échantillons. Elles sont nommées d'après le botaniste suisse Paul Jaccard.

L'indice de Jaccard peut également être désigné par le sigle IoU (de l'anglais Intersection over Union), notamment quand il est utilisé comme une métrique de performance dans une tâche de vision par ordinateur[1].

Description formelle

L'indice de Jaccard (ou coefficient de Jaccard, appelé « coefficient de communauté » dans la publication d'origine[2]) est le rapport entre le cardinal (la taille) de l'intersection des ensembles considérés et le cardinal de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles. Soit deux ensembles A et B, l'indice est :

J(A,B)=|AB||AB|.

L'extension à n ensembles est triviale :

J(S1,S2,,Sn)=|S1S2Sn||S1S2Sn|.

La distance de Jaccard mesure la dissimilarité entre les ensembles. Elle consiste simplement à soustraire l'indice de Jaccard à 1.

Jδ(A,B)=1J(A,B)=|AB||AB||AB|=|AΔB||AB|  où Δ est la différence symétrique.

De la même manière que pour l'indice, la généralisation devient :

Jδ(S1,S2,,Sn)=1J(S1,S2,,Sn)=|S1S2Sn||S1S2Sn||S1S2Sn|.

Similarité entre des ensembles binaires

L'indice de Jaccard est utile pour étudier la similarité entre des objets constitués d'attributs binaires.

Soit deux séquences A et B, chacune avec n attributs binaires. Chaque attribut peut être à 0 ou 1. On a ainsi :

A=(a1,a2,...,an) ;
B=(b1,b2,...,bn).

On définit plusieurs quantités qui caractérisent les deux ensembles :

A
0 1
B 0 M00 M10
1 M01 M11
M11 représente le nombre d'attributs qui valent 1 dans A et 1 dans B ;
M01 représente le nombre d'attributs qui valent 0 dans A et 1 dans B ;
M10 représente le nombre d'attributs qui valent 1 dans A et 0 dans B ;
M00 représente le nombre d'attributs qui valent 0 dans A et 0 dans B.

Chaque paire d'attributs doit nécessairement appartenir à l'une des quatre catégories, de telle sorte que :

M11+M01+M10+M00=n.

L'indice de Jaccard devient :

J=M11M01+M10+M11.

En utilisant ces deux dernières expressions, on obtient :

J=M11nM00.

Il suffit donc de ne calculer que les nombres d'attributs :

  • valant 1 dans tous les ensembles ;
  • valant 0 dans tous les ensembles.

La dernière écriture de cette formule, faisant intervenir n, est généralisable pour l'étude de similarité de plusieurs ensembles binaires (en calculant M00...00 et M11..11 avec autant de 0 et de 1 que d'ensembles).

La distance de Jaccard devient :

Jδ=M01+M10M01+M10+M11.

Exemple

A=(1,0,1,0,0,0,0)
B=(1,0,0,1,0,1,1)
M11=1
M00=2
M01=3
M10=1
J=13+1+1=0,2
Jδ=3+13+1+1=0,8=1J

En utilisant l'écriture de la formule faisant intervenir n (plus rapide) :

n=7
M11=1
M00=2
J=172=0,2
Jδ=1J=1172=0,8

Voir aussi

Références

Modèle:Références

  • Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining, 2005 Modèle:ISBN
  • Tanimoto, T.T. (1957) IBM Internal Report 17th Nov. 1957.

Liens externes

Modèle:Portail