KMeans Clustering 它能预测看不见的数据吗？

Question

我一直在尝试将我的训练集安装到 KMeans 集群上，并将其预测到测试测试中，但它对我来说至少已经尝试了一周了。我很好奇我是否正在解释 KMeans 的使用方式？有人告诉我它无人监管。这是否意味着如果它知道训练数据如何聚类，就不能用于预测聚类？

谢谢。

Answer 1

是的，您可以使用 k 均值来预测聚类。对训练数据进行聚类后，您将收到所选聚类数量的聚类中心。例如，如果您选择k=3，您的数据集将分为 3 个聚类，因此您将收到 3 个聚类中心。

因此，现在您可以获取测试数据，对于每个测试数据点，您可以找到euclidean三个聚类中心之间的距离。距离最小的簇将是您的预测簇。

如果您使用 scikit-learn，还有一种predict使用 K-Means 的方法，它基本上应该执行上述操作。