有没有一种方法可以使用带有分类变量的决策树而无需进行单热编码?

wel*_*121 4 machine-learning decision-tree categorical-data h2o data-science

我有一个包含 200 多个分类变量(非序数)和一些连续变量的数据集。我尝试过使用 one-hot 编码,但这会大大增加维度并导致得分很低。
似乎常规的 scikit-learn 树只能与已转换为 one-hot 编码(对于非序数变量)的 calcategori 变量一起使用,我想是否有一种方法可以创建一棵没有 one-hot 的树。我做了一些研究,发现有一个名为 h2o 的 API 可能有用,但我正在尝试找到一种在本地计算机上运行它的方法。

Tom*_*vic 5

例如,您可以从 h2o.ai/downloads 或 pypi 安装适用于 python 的 h2o-3 软件包。

h2o 包自动有效地处理分类值。建议首先不要对它们进行 one-hot 编码。

您可以在 docs.h2o.ai 找到大量文档。