Indice et distance de Jaccard

Indice et distance de Jaccard

L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d'après le botaniste suisse Paul Jaccard.

Sommaire

Description formelle

L'indice de Jaccard (ou coefficient de Jaccard) est le rapport entre la cardinalité (la taille) de l'intersection des ensembles considérés et la cardinalité de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles. Soit deux ensembles A et B, l'indice est :

 J(A,B) = \frac{|A \cap B|}{|A \cup B|}.

L'extension à n ensembles est triviale :

 J(S_1, S_2, ..., S_n) = \frac{|S_1 \cap S_2 \cap ... \cap S_n |}{|S_1 \cup S_2 \cup ... \cup S_n |}.

La distance de Jaccard mesure la dissimilarité entre les ensembles. Elle consiste simplement à soustraire l'indice de Jaccard à 1.

 J_{\delta}(A,B) = 1 - J(A,B) = { { |A \cup B| - |A \cap B| } \over |A \cup B| }.

De la même manière que pour l'indice, la généralisation devient :

 J_{\delta}(S_1, S_2, ..., S_n) = 1 - J(S_1, S_2, ..., S_n) = \frac{|S_1 \cup S_2 \cup ... \cup S_n | - |S_1 \cap S_2 \cap ... \cap S_n |}{|S_1 \cup S_2 \cup ... \cup S_n |}.

Similarité entre des ensembles binaires

L'indice de Jaccard est utile pour étudier la similarité entre des objets constitués d'attributs binaires.

Soit deux séquences A et B, chacune avec n attributs binaires. Chaque attribut peut être à 0 ou 1. On a ainsi :

 A = (a_1, a_2, ..., a_n)~
 B = (b_1, b_2, ..., b_n)~

On définit plusieurs quantités qui caractérisent les deux ensembles :

M_{11}~ représente le nombre d'attributs qui valent 1 dans A et dans B
M_{01}~ représente le nombre d'attributs qui valent 0 dans A et 1 dans B
M_{10}~ représente le nombre d'attributs qui valent 1 dans A et 0 dans B
M_{00}~ représente le nombre d'attributs qui valent 0 dans A et dans B

Chaque paire d'attributs doit nécessairement appartenir à l'une des quatre catégories, de telle sorte que :

M_{11} + M_{01} + M_{10} + M_{00} = n ~.

L'indice de Jaccard devient :

J = {M_{11} \over M_{01} + M_{10} + M_{11}} ~

En utilisant ces deux dernières expressions, on obtient :

J = {M_{11} \over n - M_{00}} ~

Il suffit donc de ne calculer que les nombres d'attributs :

  • valant 1 dans tous les ensembles
  • valant 0 dans tous les ensembles

La dernière écriture de cette formule, faisant intervenir n, est généralisable pour l'étude de similarité de plusieurs ensembles binaires (en calculant M00...00 et M11..11 avec autant de 0 et de 1 que d'ensembles).

La distance de Jaccard devient:

J_{\delta} = {M_{01} + M_{10} \over M_{01} + M_{10} + M_{11}}

Exemple

 A = (1,0,1,0,0,0,0)~
 B = (1,0,0,1,0,1,1)~
M_{11} = 1 ~
M_{00} = 2 ~
M_{01} = 3 ~
M_{10} = 1 ~
J = \frac{1}{ 3 + 1 + 1} = 0,2
J_{\delta} = \frac{3+1}{ 3 + 1 + 1} = 0,8 = 1 - J

En utilisant l'écriture de la formule faisant intervenir n (plus rapide) :

n = 7 ~
M_{11} = 1 ~
M_{00} = 2 ~
J = \frac{1}{ 7 - 2} = 0,2
J_{\delta} = 1 - J = 1 - \frac{1}{ 7 - 2} = 0,8

Voir aussi

Références

  • Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining (2005), ISBN 0-321-32136-7
  • Paul Jaccard (1901) Bulletin de la Société Vaudoise des Sciences Naturelles 37, 241-272.
  • Tanimoto, T.T. (1957) IBM Internal Report 17th Nov. 1957.

Liens externes

  • Portail des probabilités et des statistiques Portail des probabilités et des statistiques

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Indice et distance de Jaccard de Wikipédia en français (auteurs)

Игры ⚽ Поможем написать реферат

Regardez d'autres dictionnaires:

  • Indice Et Distance De Jaccard — L indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d après le botaniste suisse Paul Jaccard. Sommaire 1 Description formelle 2… …   Wikipédia en Français

  • Indice et distance de jaccard — L indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d après le botaniste suisse Paul Jaccard. Sommaire 1 Description formelle 2… …   Wikipédia en Français

  • Distance de Jaccard — Indice et distance de Jaccard L indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d après le botaniste suisse Paul Jaccard.… …   Wikipédia en Français

  • Index et distance de Jaccard — Indice et distance de Jaccard L indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d après le botaniste suisse Paul Jaccard.… …   Wikipédia en Français

  • Indice de Jaccard — Indice et distance de Jaccard L indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont nommées d après le botaniste suisse Paul Jaccard.… …   Wikipédia en Français

  • Distance De Levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Distance de levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Jaccard — (homonymie) Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. François Jaccard, prêtre, saint et martyr. Paul Jaccard, botaniste suisse Indice et distance de Jaccard, métriques en statistiques nommées d… …   Wikipédia en Français

  • Distance de Levenshtein — La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre. Son nom provient de Vladimir… …   Wikipédia en Français

  • Jaccard (homonymie) — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. François Jaccard, prêtre, saint et martyr. Paul Jaccard, botaniste suisse Indice et distance de Jaccard, métriques en statistiques nommées d après le… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”