逻辑回归系数 scikit-learn 与 statsmodels

Question

逻辑回归系数 scikit-learn 与 statsmodels

hel*_*lrd 3 python machine-learning scikit-learn statsmodels logistic-regression

当使用这两个 API 执行逻辑回归时，它们给出不同的系数。即使使用这个简单的示例，它在系数方面也不会产生相同的结果。我遵循关于同一主题的旧建议的建议，例如在 sklearn 中为参数 C 设置一个大值，因为它使惩罚几乎消失（或设置惩罚 =“无”）。

import pandas as pd
import numpy as np
import sklearn as sk
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm

n = 200

x = np.random.randint(0, 2, size=n)
y = (x > (0.5 + np.random.normal(0, 0.5, n))).astype(int)

display(pd.crosstab( y, x ))


max_iter = 100

#### Statsmodels
res_sm = sm.Logit(y, x).fit(method="ncg", maxiter=max_iter)
print(res_sm.params)

#### Scikit-Learn
res_sk = LogisticRegression( solver='newton-cg', multi_class='multinomial', max_iter=max_iter, fit_intercept=True, C=1e8 )
res_sk.fit( x.reshape(n, 1), y )
print(res_sk.coef_)

Run Code Online (Sandbox Code Playgroud)

例如，我只是运行上面的代码并获得 1.72276655 的 statsmodels 和 1.86324749 的 sklearn。当多次运行时，它总是给出不同的系数（有时比其他的更接近，但无论如何）。

因此，即使使用那个玩具示例，这两个 API 给出不同的系数（因此优势比），并且使用真实数据（此处未显示），它几乎“失控”......

我错过了什么吗？我怎样才能产生相似的系数，例如在逗号后至少有一两个数字？

Answer 1

des*_*aut 8

您的代码存在一些问题。

首先，您在此处展示的两个模型并不等效：尽管您的 scikit-learnLogisticRegression适合fit_intercept=True（这是默认设置），但您的 statsmodels 不适合；来自 statsmodels文档：

默认情况下不包含拦截，应由用户添加。见statsmodels.tools.add_constant。

似乎这是一个常见的混淆点 - 例如参见scikit-learn 和 statsmodels - 哪个 R 平方是正确的？（以及自己的答案）。

另一个问题是，尽管你是在一个二元分类设置，你问multi_class='multinomial'你的LogisticRegression，这不应该是这样。

第三个问题是，正如相关的交叉验证线程Logistic Regression: Scikit Learn vs Statsmodels 中所解释的：

在 scikit-learn 中没有办法关闭正则化，但是可以通过将调整参数 C 设置为较大的数字来使其无效。

这使得这两个模型在原则上再次无法比较，但是您已经通过设置C=1e8. 事实上，从那时起（2016 年）penalty='none'，根据文档，scikit-learn 确实添加了一种关闭正则化的方法，通过设置因为：

如果为“无”（不受 liblinear 求解器支持），则不应用正则化。

这现在应该被认为是关闭正则化的规范方式。

因此，将这些更改合并到您的代码中，我们有：

np.random.seed(42) # for reproducibility

#### Statsmodels
# first artificially add intercept to x, as advised in the docs:
x_ = sm.add_constant(x)
res_sm = sm.Logit(y, x_).fit(method="ncg", maxiter=max_iter) # x_ here
print(res_sm.params)

Run Code Online (Sandbox Code Playgroud)

这给出了结果：

Optimization terminated successfully.
         Current function value: 0.403297
         Iterations: 5
         Function evaluations: 6
         Gradient evaluations: 10
         Hessian evaluations: 5
[-1.65822763  3.65065752]

Run Code Online (Sandbox Code Playgroud)

数组的第一个元素是截距，第二个元素是的系数x。而对于 scikit learn 我们有：

#### Scikit-Learn

res_sk = LogisticRegression(solver='newton-cg', max_iter=max_iter, fit_intercept=True, penalty='none')
res_sk.fit( x.reshape(n, 1), y )
print(res_sk.intercept_, res_sk.coef_)

Run Code Online (Sandbox Code Playgroud)

结果是：

[-1.65822806] [[3.65065707]]

Run Code Online (Sandbox Code Playgroud)

在机器的数值精度范围内，这些结果实际上是相同的。

对不同的值重复该过程np.random.seed()不会改变上述结果的本质。

归档时间：	5 年，9 月前
查看次数：	2281 次
最近记录：	5 年，9 月前