您使用什么方法在k-means和EM中选择最佳簇数?

Geo*_*tas 13 r cluster-analysis data-mining expectation-maximization

有许多聚类算法可供使用.一种流行的算法是K-means,其中,基于给定数量的聚类,算法迭代以找到对象的最佳聚类.

您使用什么方法来确定k-means聚类中数据中的聚类数?

R中可用的任何包是否包含V-fold cross-validation确定正确簇数的方法?

另一种使用良好的方法是期望最大化(EM)算法,该算法为每个实例分配概率分布,该概率分布指示其属于每个聚类的概率.

这个算法是用R实现的吗?

如果是,是否可以通过交叉验证自动选择最佳簇数?

您更喜欢其他一些聚类方法吗?

小智 5

对于大型"稀疏"数据集,我会认真推荐"亲和传播"方法.与k均值相比,它具有优越的性能,并且它本质上是确定性的.

http://www.psi.toronto.edu/affinitypropagation/ 发表在"科学"杂志上.

然而,最佳聚类算法的选择取决于所考虑的数据集.K Means是一种教科书方法,很可能有人开发了一种更适合您的数据集类型的更好的算法/

这是关于K Means和Hierarchical Clustering的Andrew Moore教授(CMU,Google)的一个很好的教程. http://www.autonlab.org/tutorials/kmeans.html