Sklearn 和 StatsModels 给出了截然不同的逻辑回归答案

Question

Sklearn 和 StatsModels 给出了截然不同的逻辑回归答案

sza*_*ano 4 python scikit-learn statsmodels logistic-regression

我正在对布尔 0/1 数据集进行逻辑回归（预测某个年龄给你超过一定金额的薪水的概率），并且我使用 sklearn 和 StatsModels 得到非常不同的结果，其中 sklearn 是非常错误的。

我已将 sklearn 惩罚设置为 None，并将截距项设置为 false，以使该函数与 StatsModels 更相似，但我不知道如何使 sklearn 给出合理的答案。

灰线是 0 或 1 处的原始数据点，我只是在绘图上将 1 缩小到 0.1 以便可见。

变量：

# X and Y
X = df.age.values.reshape(-1,1)
X_poly = PolynomialFeatures(degree=4).fit_transform(X)
y_bool = np.array(df.wage.values > 250, dtype = "int")

# Generate a sequence of ages
age_grid = np.arange(X.min(), X.max()).reshape(-1,1)
age_grid_poly =  PolynomialFeatures(degree=4).fit_transform(age_grid)

Run Code Online (Sandbox Code Playgroud)

代码如下：

# sklearn Model
clf = LogisticRegression(penalty = None, fit_intercept = False,max_iter = 300).fit(X=X_poly, y=y_bool)
preds = clf.predict_proba(age_grid_poly)

# Plot
fig, ax = plt.subplots(figsize=(8,6))
ax.scatter(X ,y_bool/10, s=30, c='grey', marker='|', alpha=0.7)
plt.plot(age_grid, preds[:,1], color = 'r', alpha = 1)
plt.xlabel('Age')
plt.ylabel('Wage')
plt.show()

Run Code Online (Sandbox Code Playgroud)

sklear结果

# StatsModels
log_reg = sm.Logit(y_bool, X_poly).fit()
preds = log_reg.predict(age_grid_poly)
# Plot
fig, ax = plt.subplots(figsize=(8,6))
ax.scatter(X ,y_bool/10, s=30, c='grey', marker='|', alpha=0.7)
plt.plot(age_grid, preds, color = 'r', alpha = 1)
plt.xlabel('Age')
plt.ylabel('Wage')
plt.show()

Run Code Online (Sandbox Code Playgroud)

统计模型结果

Answer 1

Ben*_*ger 5

这似乎是因为 sklearn 的实现非常依赖于尺度（并且多项式项非常大）。通过首先缩放数据，我得到了相同的定性结果。

# sklearn Model
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

clf = Pipeline([
    ('scale', StandardScaler()),
    ('lr', LogisticRegression(penalty='none', fit_intercept=True, max_iter=1000)),
]).fit(X=X_poly, y=y_bool)
preds = clf.predict_proba(age_grid_poly)

# Plot
fig, ax = plt.subplots(figsize=(8,6))
ax.scatter(X ,y_bool/10, s=30, c='grey', marker='|', alpha=0.7)
plt.plot(age_grid, preds[:,1], color = 'r', alpha = 1)
plt.xlabel('Age')
plt.ylabel('Wage')
plt.show()

Run Code Online (Sandbox Code Playgroud)

请注意，在这种情况下我们需要进行设置fit_intercept=True，因为它StandardScaler会杀死来自PolynomialFeatures.

归档时间：	4 年，8 月前
查看次数：	1500 次
最近记录：	4 年，8 月前