Mat*_*oon 4 python cluster-analysis machine-learning k-means python-3.x
我正在尝试使用 kmeans 寻找在首尔地铁站附近开设咖啡店的最佳地点。
包括的功能有:
我决定使用肘点来找到最好的 k。在运行 kmeans 之前,我确实对所有功能进行了标准化。
现在肘点似乎是 k=3(或者 k=2),但我认为 SSE 对于肘点来说太高了。
同样使用 k=3,很难从集群中获得洞察力,因为只有三个集群。
使用 k=5 是获得洞察力的最佳选择。
即使不是肘点,使用 k=5 是否合理?
还是首先 kmeans 不是一个好的选择?
我认为这些功能上的 k-means 不能解决您的问题。您可能需要重新考虑您的方法。特别要注意您优化的功能(SSE 对您的任务意味着什么?) - 在错误的功能上使用错误的功能可能意味着您会得到不同问题的答案......
他的肘部方法非常不可靠,我希望人们最终会停下来甚至提起它。如果你使用 itz,你应该问的第一个问题是:曲线看起来像没有 k 的随机数据的典型曲线吗?如果是这样,请完全停止并重做您的方法,因为看起来您的数据很糟糕 - 或者至少,k-means 不起作用。您正好处于这种情况:该图表明 k-means 不适用于您的数据。