Geo*_*tas 13 r cluster-analysis data-mining expectation-maximization
有许多聚类算法可供使用.一种流行的算法是K-means,其中,基于给定数量的聚类,算法迭代以找到对象的最佳聚类.
您使用什么方法来确定k-means聚类中数据中的聚类数?
R中可用的任何包是否包含V-fold cross-validation
确定正确簇数的方法?
另一种使用良好的方法是期望最大化(EM)算法,该算法为每个实例分配概率分布,该概率分布指示其属于每个聚类的概率.
这个算法是用R实现的吗?
如果是,是否可以通过交叉验证自动选择最佳簇数?
您更喜欢其他一些聚类方法吗?
小智 5
对于大型"稀疏"数据集,我会认真推荐"亲和传播"方法.与k均值相比,它具有优越的性能,并且它本质上是确定性的.
http://www.psi.toronto.edu/affinitypropagation/ 发表在"科学"杂志上.
然而,最佳聚类算法的选择取决于所考虑的数据集.K Means是一种教科书方法,很可能有人开发了一种更适合您的数据集类型的更好的算法/
这是关于K Means和Hierarchical Clustering的Andrew Moore教授(CMU,Google)的一个很好的教程. http://www.autonlab.org/tutorials/kmeans.html