kmeans可重复吗？

Question

我想知道，假设初始质心点是随机选择的，那么对于完全相同的数据集，我们是否可以获得大致相同的质心点。

我正在编写一个测试kmeans程序，但它们似乎不匹配。我想知道我在做什么是否正确。

Answer 1

k均值算法需要对质心位置进行一些初始化。对于大多数算法，这些质心是使用某种方法（例如，Forgy方法或随机分区）随机初始化的，这意味着算法的重复迭代可以收敛到截然不同的结果。

请记住，k均值是迭代的，并且在每个“移动质心”步骤中，每个质心都会移动到最小化其与组成点的距离的位置。这使其在很大程度上取决于起始位置。

因此，通常建议多次运行k-means 并选择将错误最小化的聚类。