Python:逻辑回归max_iter参数降低了准确性

nur*_*anu 8 python cross-validation logistic-regression multiclass-classification

我正在做多类/多标签文本分类。我试图摆脱“ConvergenceWarning”。

当我将max_iter从默认值调整为4000 时,警告消失了。然而,我的模型精度从78降低到75

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


logreg = Pipeline([('vect', CountVectorizer()),
            ('tfidf', TfidfTransformer()),
            ('clf', LogisticRegression(n_jobs=1, C=1e5, solver='lbfgs',multi_class='ovr' ,random_state=0, class_weight='balanced' )),
           ])
logreg.fit(X_train, y_train)


y_pred = logreg.predict(X_test)

print('Logistic Regression Accuracy %s' % accuracy_score(y_pred, y_test))

cv_score = cross_val_score(logreg, train_tfidf, y_train, cv=10, scoring='accuracy')
print("CV Score : Mean : %.7g | Std : %.7g | Min : %.7g | Max : %.7g" % (np.mean(cv_score),np.std(cv_score),np.min(cv_score),np.max(cv_score)))
Run Code Online (Sandbox Code Playgroud)

为什么当 max_iter = 4000 时我的准确率会降低?有没有其他方法可以修复 *“ConvergenceWarning:lbfgs 未能收敛。增加迭代次数。“迭代次数。”,ConvergenceWarning)”*

Mau*_*aça 6

它缺少问题中使用的数据,因此无法重现问题,而只能猜测。

需要检查的一些事项:

1)许多估计器,例如LogisticRegression喜欢(不是说需要)缩放数据。根据您的数据,您可能需要使用、 或MaxAbsScaler进行MinMaxScaler缩放。最佳选择取决于您要解决的问题类型、稀疏性等数据属性、下游估计器是否欢迎负值等。缩放数据通常会加速收敛,甚至可能不需要增加。StandardScalerRobustAScalermax_iter

2)根据我的经验,在给定相同的输入数据的情况下,solver不需要"liblinear"更多的迭代来收敛。max_iter

3)我没有看到任何“max_iter set in your code snippet. It currently defaults to100”(sklearn 0.22)。

4)我看到你设置了正则化参数C=100000。它大大减少了正则化,因为 C 是正则化强度的倒数。预计会消耗更多迭代次数,并可能导致模型过度拟合。

5)我没想到更高的max_iter精度会降低。求解器是发散而不是收敛。数据可能未缩放或随机状态未固定或容差tol(默认 1e-4)变得很高。

6)检查cross_val_score交叉验证参数cv。如果我没记错的话,默认行为不会设置导致可变平均精度的随机状态。