寻找聚类算法的准确性

Aka*_*uja 0 cluster-analysis machine-learning data-mining

如何在给定算法的真实聚类和预测聚类的情况下找到聚类算法的准确性?

我在网上搜索但找不到任何有用的来源.我知道如何计算分类算法的准确性.

Ano*_*sse 7

存在许多方法,其中一些在维基百科页面"聚类分析","外部评估"部分中讨论.

基于配对计数的指数(F-Measure,Rand等)似乎是最受欢迎的.它们很容易计算; 实际上比一些设定的匹配度量更容易(匈牙利算法找到最佳的1:1对齐方式O(n^3),而所有的对计数度量都可以在交叉矩阵的线性通道中计算,所以在O(n^2).(n是的数量)集群.)

您可以找到一个新颖的视觉实验(但根据我的经验,它对实际数据没有用处,更多用于理解2d玩具数据上两种算法的差异)基于配对计数措施(以及一些外部实施)措施):

Achtert,Elke,et al."聚类评估 - 度量和视觉支持." 数据工程(ICDE),2012年IEEE第28届国际会议.IEEE,2012.

请注意,将新群集与"已知"群集进行比较存在一个大问题:

通过这样做,你实际上惩罚了新颖的解决方案.

但是在使用聚类分析时,您需要一种新颖的解决方案.如果它只是您已经拥有的标签,您可以使用您已有的标签.实际上,良好的聚类结果将已知解决方案不同,并提供有关数据的备用视图.