我有一个包含 200 多个分类变量(非序数)和一些连续变量的数据集。我尝试过使用 one-hot 编码,但这会大大增加维度并导致得分很低。
似乎常规的 scikit-learn 树只能与已转换为 one-hot 编码(对于非序数变量)的 calcategori 变量一起使用,我想是否有一种方法可以创建一棵没有 one-hot 的树。我做了一些研究,发现有一个名为 h2o 的 API 可能有用,但我正在尝试找到一种在本地计算机上运行它的方法。
machine-learning decision-tree categorical-data h2o data-science