小编wel*_*121的帖子

有没有一种方法可以使用带有分类变量的决策树而无需进行单热编码？

我有一个包含 200 多个分类变量（非序数）和一些连续变量的数据集。我尝试过使用 one-hot 编码，但这会大大增加维度并导致得分很低。
似乎常规的 scikit-learn 树只能与已转换为 one-hot 编码（对于非序数变量）的 calcategori 变量一起使用，我想是否有一种方法可以创建一棵没有 one-hot 的树。我做了一些研究，发现有一个名为 h2o 的 API 可能有用，但我正在尝试找到一种在本地计算机上运行它的方法。

machine-learning decision-tree categorical-data h2o data-science

wel*_*121

2019 07-06

4
推荐指数

1
解决办法

2188
查看次数