RTM*_*RTM 5 statistics cluster-analysis machine-learning
我阅读了关于兰德指数和调整兰德指数的维基百科文章.我可以理解它们是如何以数学方式计算的,并且可以将兰德指数解释为协议对分歧的比例.但我对ARI没有同样的直觉.
这篇博文解释了为什么ARI比RI更好,考虑到重叠的可能性.有人可以通过一个例子或直观的解释解释为什么ARI比RI更好.
我认为主要的直观点是您已经链接的博客文章中提到的那个,
两个随机集的 RI 如何接近 1?原因是由于集群的数量。当有很多集群时,两个集合中的一对项目在不同的集群中的可能性更高。这仍被视为 RI 中的一致事件。
RI计数它作为一个“成功”,如果对元件的是任一既每个分区的相同的各簇中,或者如果两者都在每个分区中的不同的相应的群集。
仅通过增加分区中的集群数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含 100 个示例的数据集。分区 X 将其划分为 100 个不同的子集,每个子集有 1 个数据点。分区 Y 将把它分成 99 个子集,98 个子集每个有一个数据点,1 个子集有两个数据点。
对于这种情况,常规 RI 看起来几乎是完美的,因为对于随机选择的任意两个点,它们肯定在 X 中的两个不同子集中,并且它们不在 Y 中的两个不同子集中的唯一方法是我们不太可能绘制包含两个项目的特殊第 99 个子集中的两个项目。所以 RI 会非常接近 1(如果我们让数据集大于 100,我们可以让它任意接近 1)。
但是对于 ARI,n_ij根据定义,列联表中的所有项都将是 1 或 0,这意味着分子必须为负,表明聚类相似性较差(这基本上是由这些分区的唯一“信息”这一事实驱动的进位是 Y 的一个子集,它有两个数据点......所以如果 X 不能重现它,那么在某种意义上它在重现 Y 指示的关系方面非常糟糕)。
您可以将 X 视为 50 组不同的二元素对,将 Y 视为 50 组不同的二元素对的不同集合,从而使这个思想实验更加复杂。话又说回来,RI可以仅通过随机的机会很好看,因为大部分的时间元素会随机两种不属于相同的两个元素的子集。它只会对实际上属于 X 或 Y 中的对(100 个可能的对)进行惩罚,而对于其他(100 choose 2) - 100剩余的对,RI 会将它们标记为成功放入 X 和 Y 中的不同组中。同样,只需使数据集更大将越来越多地提高 RI。