Índice de Jaccard

Una distribución de probabilidad en n dimensiones se puede representar dividiendo el n-1 simplex en regiones con un área proporcional a la masa en cada término. Al hacerlo, el índice de jaccard de probabilidad entre dos distribuciones es igual al área de intersección de simplices que corresponden al mismo elemento

El índice de Jaccard ( IJ ) o coeficiente de Jaccard ( IJ ) mide el grado de similitud entre dos conjuntos, sea cual sea el tipo de elementos.

La formulación es la siguiente:

Es decir, la cardinalidad de la intersección de ambos conjuntos dividida por la cardinalidad de su unión.

Siempre toma valores entre 0 y 1, correspondiente este último a la igualdad total entre ambos conjuntos.

En ecología se usa para medir la similitud, disimilitud o distancias (estas dos últimas si se le resta el índice a 1) que existen entre dos estaciones de muestreo, con una formulación equivalente:[1]IJ: c / (a+b-c)

   

Donde:

  • a: es el número de especies presentes en la estación A.
  • b: es el número de especies presentes en la estación B.
  • c: es el número de especies presentes en ambas estaciones, A y B.


Existe otra forma de representar este índice


Donde:

  • a: es el número de especies presentes SOLO en la estación A.
  • b: es el número de especies presentes SOLO en la estación B.
  • c: es el número de especies presentes en ambas estaciones, A y B.

En este sentido 0 significa que las estaciones no presentan especies en común, y tiende a 1 a medida que aumenta el número de especies compartidas.

En informática se utiliza para medir la distancia entre vectores definidos sobre un espacio vectorial booleano (las componentes del vector sólo pueden ser 0 o 1).

J(A,B) = |A ∧ B| / |A ∨ B|

donde ∧ y ∨ son, respectivamente, las operaciones × (AND) y + (OR) de la lógica booleana, y |A|=∑ai.

Referencias

  1. Real, R., & Vargas, J. M. (1996). The probabilistic basis of Jaccard's index of similarity. Systematic biology, 45(3), 380-385. https://www.researchgate.net/profile/Raimundo_Real/publication/239604848_The_Probabilistic_Basis_of_Jaccard's_Index_of_Similarity/links/0c9605268d8ff04ab1000000.pdf