如何对抗由 KMeans 聚类引起的随机性

Question

我正在开发一种算法来根据图像数据对不同类型的狗进行分类。该算法的步骤是：

现在，我遇到了一些问题。在图像描述符集合中找到“单词”是非常重要的一步。由于聚类的随机性，每次运行我的程序时都会发现不同的聚类。不幸的结果是，有时我的分类器的准确度会非常好，而有时则非常差。我把这归结为聚类算法有时会找到“好”词，有时会找到“坏”词。

有谁知道我如何通过查找“坏”词来对冲聚类算法？目前我只是聚类几次并取分类器的平均准确度，但必须有更好的方法。

感谢您花时间阅读本文，并感谢您的帮助！

编辑：

我没有使用 KMeans 进行分类；我正在使用支持向量机进行分类。我使用 KMeans 来查找图像描述符“单词”，然后使用这些单词创建描述每个图像的直方图。这些直方图作为特征向量被馈送到支持向量机进行分类。

Answer 1

有许多可能的方法使聚类可重复：