我有一个带有一些分类列的pandas数据框.其中一些包含非整数值.
我目前想要对这些数据应用几种机器学习模型.对于某些模型,有必要进行标准化以获得更好的结果.例如,将分类变量转换为虚拟/指示变量.实际上,为此目的,熊猫有一个名为get_dummies的函数.但是,此函数根据数据返回结果.因此,如果我在训练数据上调用get_dummies,然后在测试数据上再次调用它,则在两种情况下实现的列可能会有所不同,因为测试数据中的分类列只能包含一个子集/不同的可能值集与可能的值相比较培训数据.
因此,我正在寻找其他方法来进行单热编码.
有什么方法可以在python(pandas/sklearn)中进行一次热编码?