改进k均值聚类

Dhr*_*ola 12 algorithm machine-learning computer-vision k-means

我关于计算机视觉的讲义提到,如果我们知道聚类的标准偏差,那么k均值聚类算法的性能可以提高.怎么会这样?

我的想法是,我们可以使用标准差来首先通过基于直方图的分割得出更好的初始估计.你怎么看?谢谢你的帮助!

ang*_* mo 15

您的讲师可能会考虑Veenman等人2002年的论文.基本思想是您设置每个群集中允许的最大差异.您从与数据点一样多的集群开始,然后逐步"发展"集群

  • 如果生成的聚类的方差低于阈值,则合并相邻聚类
  • 如果群集的方差高于阈值,则隔离"远"的元素
  • 或者,如果它减少了平方误差的总和,则在相邻簇之间移动一些元素

(这种演变充当全局优化程序,并防止初始分配集群的不良后果意味着你有k-means)

总而言之,如果您知道方差,您就知道群集应该有多么多样,因此更容易检测异常值(通常应将其置于不同的群集中).