使用Pandas的分类'dtype和sklearn

toe*_*oes 12 python pandas scikit-learn categorical-data

在sklearn中是否有任何支持直接在拟合模型中使用Panda的Categorical数据类型?从我所看到的sklearn不支持这种数据类型是不幸的,因为Categorical数据类型既编码分类数据又包含数据的映射方案.另外,分类编码纯粹是一个数据处理/处理问题,因此它似乎更自然地由Pandas处理.

注意

我意识到有几种方法可以对Pandas和sklearn中的分类变量进行编码 - 这不是我所要求的.

And*_*ler 8

来自问题跟踪器的交叉发布:

我认为这些至少是两个独立的问题:1.可以/将会使用分类特征作为输入来支持pandas数据帧2.可以/将通过pandas分类数据类型来浏览对分类变量的操作.

  1. 或多或少会将所有分类变量转换为单热编码特征,即虚拟列.这对用户来说真的很容易.我们可以在scikit-learn中"在引擎盖下"这样做,但它会使代码复杂化,我看不到很大的好处.

  2. 基本上不可能.有一个分类数据类型对树很好,但我认为pandas没有稳定的c级接口,所以我们不能真正选择它.即使有,它仍然需要大量重写树代码.我认为这对非树估算器没有帮助.