C-J*_*Jay 3 python cluster-analysis data-mining bigdata scikit-learn
我用K均值和silhouette_score从蟒蛇来计算我的群集sklearn,但> 10.000样品> 1000集群计算silhouette_score是很慢的。
轮廓分数,虽然是更有吸引力的衡量标准之一,但是 O(n^2)。这意味着,计算分数比计算 k-means 聚类要昂贵得多!
此外,这些分数只是启发式的。它们无论如何都不会产生“最佳”聚类。他们只给出了如何选择 k的提示,但很多时候你会发现其他 k 更好!所以不要盲目相信这些分数。