我有一组数据框,其中一列包含一个分类变量.我想将它转换为几个虚拟变量,在这种情况下我通常会使用get_dummies.
会发生什么是get_dummies查看每个数据帧中可用的数据以找出有多少类别,从而创建适当数量的虚拟变量.但是,在我现在正在工作的问题中,我实际上事先知道可能的类别是什么.但是,当单独查看每个数据框时,并非所有类别都必须出现.
我的问题是:有没有办法传递get_dummies(或等效函数)类别的名称,这样,对于没有出现在给定数据框中的类别,它只是创建一个0的列?
会有这样的东西:
categories = ['a', 'b', 'c']
cat
1 a
2 b
3 a
Run Code Online (Sandbox Code Playgroud)
成为这个:
cat_a cat_b cat_c
1 1 0 0
2 0 1 0
3 1 0 0
Run Code Online (Sandbox Code Playgroud)