如何根据要素选择浏览选择分类要素

MYj*_*Yjx 5 python feature-selection scikit-learn

我的问题是我想用几个分类变量对数据进行特征选择.我用get_dummiespandas来为这些分类变量生成所有稀疏矩阵.我的问题是sklearn如何知道一个特定的稀疏矩阵实际上属于一个特征并选择/删除所有特征?例如,我有一个名为city的变量.纽约,芝加哥和波士顿有三个级别用于该变量,因此稀疏矩阵看起来像:

[1,0,0] [0,1,0] [0,0,1] 我如何告知sklearn,在这三个"列"中实际上属于一个功能,哪个是城市,最终不会选择纽约,并删除芝加哥和波士顿?

非常感谢!

Fre*_*Foo 5

你不能.scikit-learn中的特征选择例程将彼此独立地考虑虚拟变量.这意味着他们可以将分类变量的域"修剪"到对预测很重要的值.