如何在k-Nearest-Neighbor算法中使用二进制和连续特征?

Joh*_*all 9 algorithm machine-learning knn

我的特征向量具有连续(或广泛范围)和二进制组件.如果我只使用欧氏距离,连续组件将产生更大的影响:

将对称与非对称表示为0和1以及一些不太重要的比率(范围从0到100),从对称变为非对称与将比率改变25相比具有微小的距离影响.

我可以为对称性添加更多的权重(例如,通过使其为0或100),但是有更好的方法吗?

NPE*_*NPE 10

您可以尝试使用标准化的欧几里德距离,例如,在此处第一部分的末尾描述.

它只是通过标准偏差来缩放每个特征(连续或离散).这比max-min另一张海报所建议的范围()缩放更稳健.