sklearn 聚类：在大数据集上确定最佳聚类数的最快方法

Question

我用K均值和silhouette_score从蟒蛇来计算我的群集sklearn，但> 10.000样品> 1000集群计算silhouette_score是很慢的。

Answer 1

轮廓分数，虽然是更有吸引力的衡量标准之一，但是 O(n^2)。这意味着，计算分数比计算 k-means 聚类要昂贵得多！

此外，这些分数只是启发式的。它们无论如何都不会产生“最佳”聚类。他们只给出了如何选择 k的提示，但很多时候你会发现其他 k 更好！所以不要盲目相信这些分数。