计算一组集合之间的相似度

Sou*_*oup 5 metrics similarity

假设有4套:

S1 = {1,2,3,4};
S2 = {2,3,4};
S3 = {2,3,4,5};
S4 = {1,3,4,5};

是否有任何标准度量来表示这组4组的相似度?

感谢Jaccard方法的建议.然而,似乎成对.如何计算整组数据集的相似度?

Tob*_*obu 8

成对,您可以计算两组的Jaccard距离.它只是两组之间的距离,如果它们是{1,2,3 ......}都是单位向量的空间中的布尔向量.

  • +1,可能是(6)Jaccard系数的平均值是@Soup正在寻找的. (2认同)

ada*_*mse 2

你的问题不是很具体。但我想你的意思是它们之间的“编辑距离”之类的东西?即,您需要将 s1 更改多少才能到达 s2?

查看有关编辑距离的维基百科文章。