使用具有L方法的平滑器来确定K-Means簇的数量

Question

在应用L方法确定数据集中k-means聚类的数量之前,有没有人试图将更平滑的应用程序应用于评估指标？如果是这样,它是否改善了结果？或者允许更少数量的k-means试验,从而大大提高速度？您使用了哪种平滑算法/方法？

这将计算一系列不同试验群集计数的评估指标.然后,为了找到膝盖(出现最佳簇数),使用线性回归拟合两条线.应用简单的迭代过程来改善膝盖拟合 - 这使用现有的评估度量计算,并且不需要重新运行k均值.

对于评估指标,我使用的是Dunns指数的简化版本的倒数.简化速度(基本上我的直径和簇间计算得到简化).倒数使得指数在正确的方向上工作(即,通常更好).

K-means是一种随机算法,因此通常会多次运行并选择最佳拟合.这非常有效,但是当您为1..N群集执行此操作时,时间会快速累加.因此,控制运行次数符合我的利益.整体处理时间可能决定我的实现是否实用 - 如果我无法加速,我可能会抛弃此功能.

Answer 1

我过去曾在SO上问了一个类似的问题.我的问题是如何找到一种找到你描述的L形膝盖的一致方法.所讨论的曲线代表了复杂性与模型拟合度量之间的权衡.

该最佳的解决方案是要找到具有最大距离的点d根据图所示:

替代文字

注意:我还没看过您链接的论文..