rrm*_*016 6 cluster-analysis k-means unsupervised-learning data-science gmm
我正在学习非线性聚类算法,并且遇到了这个二维图。我想知道哪种聚类算法和超参数组合可以很好地聚类该数据。

就像人类会将这五个尖峰聚类一样。我希望我的算法能够做到。我尝试了KMeans,但它只是水平或垂直聚集。我开始使用GMM,但无法获得所需聚类的超参数。
如果不起作用,请始终首先尝试改进预处理。k-means 等算法对缩放非常敏感,因此需要谨慎选择。
GMM 显然是您的首选。尝试不同的工具可能值得。R 的 Mclust 非常慢。Sklearn 的 GMM 有时不稳定。ELKI 上手有点难,但它的 EM 通常给我最好的结果。
除了 GMM 之外,相关聚类可能也值得尝试。这些算法假设有一些流形(例如一条线)上存在簇。示例包括 ORCLUS、LMCLUS、CASH、4C……但在我看来,这些主要适用于合成玩具数据。