调整后兰特指数 (ARI)

Question

调整后兰特指数 (ARI)

为什么在聚类方法中使用调整的兰特指数 (ARI) 和归一化互信息 (NMI) 会比简单的测试分数（例如 MSE）产生更好的测量结果？我理解哪个点属于哪个聚类在聚类算法中很重要，并且标记是任意的。

Answer 1

您自己回答 - 没有用于聚类的“MSE”，因为仅当您知道值时才定义 MSE的因变量。在聚类中，它不仅是任意分配的，甚至没有“数字”的概念，而且 MSE 是回归度量，它对数字进行操作，而不是对类进行操作。现在，为什么不通过简单地计算所有可能的标签排列来使用 Accuracy 呢？嗯，这（几乎）正是 RandIndex 的含义，尽管它起源于不同的社会，名称不同，但它与集群和标签之间的映射关系非常密切。那么什么是调整后兰特指数？除了 RandIndex /（几乎）准确度，还有一个修正，它告诉你完全随机分类器的行为。因此，它实际上是由随机分类器的准确性归一化的准确性度量的转换。

这些“小差异”只是考虑了事实，即聚类具有一些附加属性，例如：

集群（标签）的数量不是先验的

您需要对平凡模型进行修正，这可能很难轻易弄清楚（对于分类，通常很简单地说平凡模型的准确性是多少）

尤其是第一部分很重要，请考虑聚类：

clustering [o o o o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
Run Code Online (Sandbox Code Playgroud)
唯一发生的“坏事”是我们将一个班级分成了两部分。如果我们使用准确率，我们会得到 75%（因为一半被简单地视为“坏”），但如果我们考虑 rand 指数，它实际上会分配比以下情况高得多的分数：

clustering [o][o][o][o][o o o o][o o o o ] truth [o o o o o o o o][o o o o ]
Run Code Online (Sandbox Code Playgroud)
准确率也将达到 75%。我认为第一个聚类确实比第二个更好。

换句话说，这些指标与经典分类指标密切相关，它们只是引入了额外的风格来区分（主要是）具有不同聚类数量的聚类。这里的主要原因是在聚类中您关心结构，而不是逐点标签。

归档时间：	9 年，4 月前
查看次数：	1654 次
最近记录：	9 年，4 月前