调整后兰特指数 (ARI)

K.h*_*eer 1 machine-learning

为什么在聚类方法中使用调整的兰特指数 (ARI) 和归一化互信息 (NMI) 会比简单的测试分数(例如 MSE)产生更好的测量结果?我理解哪个点属于哪个聚类在聚类算法中很重要,并且标记是任意的。

lej*_*lot 5

您自己回答 - 没有用于聚类的“MSE”,因为仅当您知道时才定义 MSE的因变量。在聚类中,它不仅是任意分配的,甚至没有“数字”的概念,而且 MSE 是回归度量,它对数字进行操作,而不是对类进行操作。现在,为什么不通过简单地计算所有可能的标签排列来使用 Accuracy 呢?嗯,这(几乎)正是 RandIndex 的含义,尽管它起源于不同的社会,名称不同,但它与集群和标签之间的映射关系非常密切。那么什么是调整后兰特指数?除了 RandIndex /(几乎)准确度,还有一个修正,它告诉你完全随机分类器的行为。因此,它实际上是由随机分类器的准确性归一化的准确性度量的转换。

这些“小差异”只是考虑了事实,即聚类具有一些附加属性,例如:

  • 集群(标签)的数量不是先验的
  • 您需要对平凡模型进行修正,这可能很难轻易弄清楚(对于分类,通常很简单地说平凡模型的准确性是多少)

尤其是第一部分很重要,请考虑聚类:

clustering   [o o o o][o o o o][o o o o ]
truth        [o o o o  o o o o][o o o o ]
Run Code Online (Sandbox Code Playgroud)

唯一发生的“坏事”是我们将一个班级分成了两部分。如果我们使用准确率,我们会得到 75%(因为一半被简单地视为“坏”),但如果我们考虑 rand 指数,它实际上会分配比以下情况高得多的分数:

clustering   [o][o][o][o][o o o o][o o o o ]
truth        [o  o  o  o  o o o o][o o o o ]
Run Code Online (Sandbox Code Playgroud)

准确率也将达到 75%。我认为第一个聚类确实比第二个更好。

换句话说,这些指标与经典分类指标密切相关,它们只是引入了额外的风格来区分(主要是)具有不同聚类数量的聚类。这里的主要原因是在聚类中您关心结构,而不是逐点标签。