sklearn 聚类:在大数据集上确定最佳聚类数的最快方法

C-J*_*Jay 3 python cluster-analysis data-mining bigdata scikit-learn

我用K均值silhouette_score从蟒蛇来计算我的群集sklearn,但> 10.000样品> 1000集群计算silhouette_score是很慢的。

  1. 有没有更快的方法来确定最佳集群数?
  2. 或者我应该改变聚类算法?如果是,对于具有 >300.000 个样本和大量集群的数据集,哪种算法是最好的(也是最快的)?

Ano*_*sse 5

轮廓分数,虽然是更有吸引力的衡量标准之一,但是 O(n^2)。这意味着,计算分数比计算 k-means 聚类要昂贵得多!

此外,这些分数只是启发式的。它们无论如何都不会产生“最佳”聚类。他们只给出了如何选择 k的提示,但很多时候你会发现其他 k 更好!所以不要盲目相信这些分数