兰德相似指数和杰卡德相似指数有什么区别?

use*_*715 3 validation statistics probability similarity

Rand 和 Jaccard 相似性/验证指数之间的理论差异是什么?

我对方程式不感兴趣,而是对它们差异的解释感兴趣。

我知道杰卡德指数忽略了真阴性,但为什么呢?这会产生什么样的影响?

谢谢

spa*_*dan 6

我在计算生物学的硕士论文中研究了这些问题,所以希望我能够以对你有帮助的方式回答这个问题-

较短的版本 -

J=TP/(TP+FP+FN) 而 R=(TP+TN)/(TP+TN+FP+FN)

当然,根据定义,TN 被 Jaccard 忽略了。对于非常大的数据集,TN 的数量可能会非常巨大,我的论文就是这种情况。所以,这个术语推动了所有的分析。当我从兰特指数转向杰卡德指数时,我忽略了TN的贡献,并且能够更好地理解事物。

更长的版本——

兰德指数和杰卡德指数比通常的响应特征统计(如敏感性/特异性等)更常用于比较分区/聚类。但它们在某种意义上可以扩展到真阳性或真阴性的概念。让我们更详细地讨论一下——

对于一组元素 S={a1,a2...an},我们可以定义两个不同的聚类算法 X 和 Y,将它们分别分为 r 个簇 - X1,X2...Xr 簇和 Y1,Y2.. ..Yr集群。合并所有 X 簇或所有 Y 簇,您将再次获得完整的 S 集。

现在,我们定义: - A= S 中位于 X 中同一集合且位于 Y 中同一集合的元素对的数量 B= S 中位于 X 中不同集合且位于不同集合中的元素对的数量Y 中的集合 C= S 中位于 X 中同一集合且位于 Y 中不同集合的元素对的数量 D= S 中位于 X 中不同集合且位于 Y 中同一集合的元素对的数量

兰德指数定义为 - R=(A+B)/(A+B+C+D) 现在这样看 - 令 X 为诊断测试的结果,而 Y 为数据点上的实际标签。因此,A、B、C、D 然后减少为 TP、TN、FP、FN(按此顺序)。基本上,R 简化为我上面给出的定义。

现在,杰卡德指数-

对于两个集合 M,N,杰卡德索引忽略聚类算法 X 和 Y 的不同集合中的元素,即它忽略 B,这是真负数。

J = (A)/(A+C+D) 可简化为 J=(TP)/(TP+FP+FN)。

这就是这两个统计数据的根本不同。如果您想了解更多有关这些的信息,这里有一篇非常好的论文和一个可能对您有用的网站 -

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf

http://clusteval.sdu.dk/313/clustering_quality_measures/542

希望这可以帮助!