scikit-learn 整数变量的解释

1 data-mining decision-tree scikit-learn

经过多年使用 SAS/SPSS 产品进行数据挖掘后,我刚刚开始使用 scikit-learn。我对 scikit-learn 和 pandas 的能力感到惊讶,但是有一件事我自己无法弄清楚。让我们假设我的训练数据是由整数构建的,其中一些编码分类值。有什么方法可以控制如何通过树或任何集成树(例如:ExtraTreesClassifier)算法解释变量?正确的方法是将变量类型从 int 更改为 object,或者我可以学习一个常见的技巧吗?

谢谢,迪拉

ogr*_*sel 5

对于低基数分类特征,可能适合使用 one-hot 编码特征扩展。看一下:

对于高基数分类特征,您可以保留 ExtraTreesClassifier 的整数编码。尽管该算法将它们视为常规连续变量,但在实践中它似乎不会对预测准确性产生太大的负面影响。

编辑:在任何情况下,scikit-learn 都期望对所有输入特征进行同构浮点类型编码。对象数据类型永远不是有效的输入类型。