Distance de Jaro-Winkler

De testwiki
Aller à la navigation Aller à la recherche

La distance de Jaro-Winkler mesure la similarité entre deux chaînes de caractères. Il s'agit d'une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilisée dans la détection de doublons.

Le résultat est normalisé de façon à avoir une mesure entre 0 et 1, donc 0 représente l'absence de similarité et 1, l'égalité des chaines comparées.

Cette mesure est particulièrement adaptée au traitement de chaînes courtes comme des noms ou des mots de passe.

Distance de Jaro

La distance de Jaro entre les chaînes s1 et s2 est définie par :

dj={0si m=013(m|s1|+m|s2|+mtm)sinon

où:

  • |si| est la longueur de la chaîne de caractères si ;
  • m est le nombre de caractères correspondants (voir ci-dessous);
  • t est le nombre de transpositions (voir ci-dessous).

Deux caractères identiques de s1 et de s2 sont considérés comme correspondants si leur éloignement (i.e. la différence entre leurs positions dans leurs chaînes respectives) ne dépasse pas :

max(|s1|,|s2|)21.

Le nombre de transpositions est obtenu en comparant le i-ème caractère correspondant de s1 avec le i-ème caractère correspondant de s2. Le nombre de fois où ces caractères sont différents, divisé par deux, donne le nombre de transpositions.

Distance de Jaro-Winkler

La méthode introduite par Winkler utilise un coefficient de préfixe p qui favorise les chaînes commençant par un préfixe de longueur (avec 4). En considérant deux chaînes s1 et s2, leur distance de Jaro-Winkler dw est :

dw=dj+(p(1dj))

où :

  • dj est la distance de Jaro entre s1 et s2
  • est la longueur du préfixe commun (maximum 4 caractères)
  • p est un coefficient qui permet de favoriser les chaînes avec un préfixe commun. Winkler propose pour valeur p=0.1

Exemples

Soit deux chaînes s1 MARTHA et s2 MARHTA. Nous allons dresser leur table de correspondance. Ici, l'éloignement maximal vaut 6 / 2 - 1 = 2. Dans les cases jaunes de la table ci-dessous, on inscrira donc 1 lorsque les caractères sont identiques (il y a correspondance) et 0 sinon :

M A R T H A
M 1 0 0 0 0 0
A 0 1 0 0 0 0
R 0 0 1 0 0 0
H 0 0 0 0 1 0
T 0 0 0 1 0 0
A 0 0 0 0 0 1
  • m=6 (nombre de 1 dans la table)
  • |s1|=6
  • |s2|=6
  • Les caractères correspondants sont {M,A,R,T,H,A} pour s1 et {M,A,R,H,T,A} pour s2. En considérant ces ensembles ordonnés, on a donc 2 couples (T/H et H/T) de caractères correspondants différents, soit deux demi-transpositions. D'où t=22=1

La distance de Jaro est :

dj=13(66+66+616)=0,944

La distance de Jaro-Winkler avec p=0,1 avec un préfixe de longueur =3 devient

dw=0,944+(3×0,1(10,944))=0,961

Avec les chaînes s1 DWAYNE et s2 DUANE on trouve :

  • m=4
  • |s1|=6
  • |s2|=5
  • t=0

La distance de Jaro est :

dj=13(46+45+404)=0,822

Celle de Jaro-Winkler avec =1 :

dw=0,822+(1×0,1(10,822))=0,84

Avec les chaînes s1 DIXON et s2 DICKSONX, on obtient :

D I X O N
D 1 0 0 0 0
I 0 1 0 0 0
C 0 0 0 0 0
K 0 0 0 0 0
S 0 0 0 0 0
O 0 0 0 1 0
N 0 0 0 0 1
X 0 0 0 0 0

On calcule l'éloignement maximum pour le critère de correspondance

max(|s1|,|s2|)21=821=3.
  • m=4 (les deux X ne correspondent pas, car ils sont éloignés de plus de 3 caractères)
  • |s1|=5
  • |s2|=8
  • t=0

La distance de Jaro :

dj=13(45+48+404)=0.767

La distance de Jaro-Winkler avec =2

dw=0,767+(2×0,1(10,767))=0,813

Cas particuliers

Avec les chaînes s1 75000 et s2 75020 on doit trouver :

dw=0.907

Les correspondances entre les deux chaînes de caractères ne sont pas les mêmes ("75000" pour la première et "7500" pour la seconde). Par conséquent, il faut prendre m=4 au lieu de m=5.

Notes et références

Liens externes

Modèle:Palette Algorithmes de manipulation de texte Modèle:Portail