散列减少了维度,而单热编码通过将多分类变量转换为许多二进制变量来实质上炸毁了特征空间.所以看起来他们有相反的效果.我的问题是:
在同一数据集上执行这两个操作有什么好处?我读了一些关于捕捉互动但没有详细说明的内容 - 有人可以详细说明吗?
哪一个首先出现,为什么?
hash machine-learning dimensionality-reduction one-hot-encoding
dimensionality-reduction ×1
hash ×1
machine-learning ×1
one-hot-encoding ×1