我是否需要在回归中手动处理虚拟变量陷阱,或者 sklearn 会做到这一点?

Kru*_*kar 2 machine-learning dummy-variable one-hot-encoding

我知道在训练机器学习算法之前我们必须对分类数据进行一次性编码。但我的问题是我们需要手动删除一列还是 sklearn 会做到这一点?

Myk*_*vyi 5

我假设您还想为非二元分类特征删除一列,以避免多重共线性,这可能会导致线性模型出现问题。这就像drop_first=True向 提供论据一样简单pd.get_dummies()。似乎sklearn.preprocessing.OneHotEncoder没有一个简单的接口来执行此操作,而且无论如何它的用法都很复杂,因为必须事先将分类特征编码到int's 中。