K最近邻算法

Question

也许我相当愚蠢,但我找不到令人满意的答案:使用KNN算法,比如k = 5.现在我尝试通过获取其最近的5个邻居来对未知对象进行分类.该怎么做,如果在确定4个最近邻居后,接下来的2个(或更多)最近的物体具有相同的距离？应该选择这两个或更多的哪个对象作为第五个最近邻居？

提前致谢 :)

Answer 1

应该选择这两个或更多的哪个对象作为第五个最近邻居？

这实际上取决于您希望如何实现它.

大多数算法都会执行以下三种操作之一:

话虽这么说,大多数基于径向搜索的算法都有一个固有的平稳性假设,在这种情况下,你选择上面哪个选项真的无关紧要.一般来说,理论上它们中的任何一个都应该提供合理的默认值(特别是因为它们是近似中的最远点,并且应该具有最低的有效权重).

Answer 2

另一个有趣的选择是像这样使用最近的邻居:

这种方式对于重叠的类的数据集有效.

Answer 3

如果你有另一个距离功能,你可以用它打破平局.即使是坏人也可以胜任,如果你有一些启发式的话,那就更好了.例如,如果您知道计算主要距离的某个功能更重要,则只使用此功能来解决这个问题.

如果不是这样的话,随意挑选.在相同的测试集上运行几次你的程序,以检查随机选择是否重要.