您使用什么方法在k-means和EM中选择最佳簇数？

Question

有许多聚类算法可供使用.一种流行的算法是K-means,其中,基于给定数量的聚类,算法迭代以找到对象的最佳聚类.

您使用什么方法来确定k-means聚类中数据中的聚类数？

R中可用的任何包是否包含V-fold cross-validation确定正确簇数的方法？

另一种使用良好的方法是期望最大化(EM)算法,该算法为每个实例分配概率分布,该概率分布指示其属于每个聚类的概率.

这个算法是用R实现的吗？

如果是,是否可以通过交叉验证自动选择最佳簇数？

您更喜欢其他一些聚类方法吗？

Answer 1

对于大型"稀疏"数据集,我会认真推荐"亲和传播"方法.与k均值相比,它具有优越的性能,并且它本质上是确定性的.

然而,最佳聚类算法的选择取决于所考虑的数据集.K Means是一种教科书方法,很可能有人开发了一种更适合您的数据集类型的更好的算法/

这是关于K Means和Hierarchical Clustering的Andrew Moore教授(CMU,Google)的一个很好的教程. http://www.autonlab.org/tutorials/kmeans.html