相关疑难解决方法(0)

不存在所有类别时的虚拟变量

我有一组数据框,其中一列包含一个分类变量.我想将它转换为几个虚拟变量,在这种情况下我通常会使用get_dummies.

会发生什么是get_dummies查看每个数据帧中可用的数据以找出有多少类别,从而创建适当数量的虚拟变量.但是,在我现在正在工作的问题中,我实际上事先知道可能的类别是什么.但是,当单独查看每个数据框时,并非所有类别都必须出现.

我的问题是:有没有办法传递get_dummies(或等效函数)类别的名称,这样,对于没有出现在给定数据框中的类别,它只是创建一个0的列?

会有这样的东西:

categories = ['a', 'b', 'c']

   cat
1   a
2   b
3   a
Run Code Online (Sandbox Code Playgroud)

成为这个:

  cat_a  cat_b  cat_c
1   1      0      0
2   0      1      0
3   1      0      0
Run Code Online (Sandbox Code Playgroud)

python machine-learning pandas dummy-variable

38
推荐指数
3
解决办法
1万
查看次数

标签 统计

dummy-variable ×1

machine-learning ×1

pandas ×1

python ×1