我一直在研究k-means聚类,有一点不清楚你是如何选择k的值的.这只是一个反复试验的问题,还是有更多的问题?
我试图在一组高维数据点(大约50维)上应用k-means,并且想知道是否有任何实现找到最佳簇数.
我记得在某处读取算法通常这样做的方式是使群集间距离最大化并且群集内距离最小化但我不记得我在哪里看到它.如果有人可以指出我讨论这个的任何资源,那将是很棒的.我目前正在使用SciPy进行k-means,但任何相关的库都可以.
如果有其他方法可以实现相同或更好的算法,请告诉我.
可能的重复:
如何在 K 均值算法中优化 K
使用 k 均值聚类时如何确定 k?
根据统计指标,我们可以决定 K。如标准差、均值、方差等,或者
有没有简单的方法来选择K-means算法中的K?
预先感谢纳文