小编sum*_*s22的帖子

ConvergenceWarning: lbfgs 未能收敛 (status=1): STOP: TOTAL NO. 达到限制的迭代次数

我有一个由数字和分类数据组成的数据集，我想根据患者的医疗特征预测其不良结果。我为我的数据集定义了一个预测管道，如下所示：

X = dataset.drop(columns=['target'])
y = dataset['target']

# define categorical and numeric transformers
numeric_transformer = Pipeline(steps=[
    ('knnImputer', KNNImputer(n_neighbors=2, weights="uniform")),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

#  dispatch object columns to the categorical_transformer and remaining columns to numerical_transformer
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, selector(dtype_exclude="object")),
    ('cat', categorical_transformer, selector(dtype_include="object"))
])

# Append classifier to preprocessing pipeline.
# Now we have a full prediction pipeline.
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', LogisticRegression())])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf.fit(X_train, …

Run Code Online (Sandbox Code Playgroud)

python machine-learning scikit-learn logistic-regression

sum*_*s22

2021 04-20

43
推荐指数

3
解决办法

7万
查看次数

使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？

我最近开始学习 Python，以使用机器学习方法为研究项目开发预测模型。我有一个包含数值和分类数据的大型数据集。数据集有很多缺失值。我目前正在尝试使用 OneHotEncoder 对分类特征进行编码。当我读到 OneHotEncoder 时，我的理解是，对于缺失值 (NaN)，OneHotEncoder 会将 0 分配给所有特征的类别，如下所示：