Scikit-learn Imputer 降维

jrl*_*und 4 python scikit-learn

我有一个包含 332 列的数据框。我想估算值以便能够使用 scikit-learn 的决策树分类器。我的问题是来自 imputer 函数的结果数据的列只有 330。

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)

print(data.shape,new.shape)
(34132, 332) (34132, 330)
Run Code Online (Sandbox Code Playgroud)

Ami*_*ory 5

根据以下文件sklearn.preprocessing.Imputer

当axis=0 时,在转换时丢弃仅包含拟合缺失值的列。

因此,这是删除所有缺失值列。