在 Python 中使用 statsmodels.api 和 R 语法进行逻辑回归

Question

在 Python 中使用 statsmodels.api 和 R 语法进行逻辑回归

我正在尝试运行一个简单的逻辑回归函数。我有 4 个名为 x1、x2、x3 和 x4 的列。x4 有一列只有零和一。所以，我使用它作为我的因变量。为了预测因变量，我使用了自变量 x1、x2 和 x3。我的语法是否关闭，或者如何在保持 Statsmodels.api 提供的 R 语法的同时正确完成对我的数据的逻辑回归？

以下是我的代码：

import pandas as pd
import statsmodels.formula.api as smf

df = pd.DataFrame({'x1': [10, 11, 0, 14],
                       'x2': [12, 0, 1, 24],
                       'x3': [0, 65, 3, 2],
                       'x4': [0, 0, 1, 0]})

model = smf.logit(formula='x4 ~ x1 + x2 + x3', data=df).fit()
print(model)

Run Code Online (Sandbox Code Playgroud)

以下是我的错误：

statsmodels.tools.sm_exceptions.PerfectSeparationError: Perfect separation detected, results not available

Run Code Online (Sandbox Code Playgroud)

我明白这意味着什么，但我不明白如何避免这个问题。确认逻辑回归算法成功需要哪些值，我的语法是否正确，是否有更好的方法来解决我所做的事情（使用 R 语法）？

Answer 1

Bre*_*dan 1

我可能误解了这个问题，但语法似乎很好——尽管我认为你想要print(model.summary())而不是print(model). 问题是你的样本量太小。

例如，这有效：

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

np.random.seed(2)
n=100
df = pd.DataFrame({'x1':np.random.randn(n),
                   'x2': np.random.randn(n),
                   'x3': np.random.randn(n),
                   'x4': np.random.randint(0,2,n)})

model = smf.logit(formula='x4 ~ x1 + x2 + x3', data=df).fit()
print(model.summary())

Run Code Online (Sandbox Code Playgroud)

更改为会n=10在摘要表下产生以下消息：

可能完全准分离：可以完美预测 0.40 的观测值。这可能表明存在完全的准分离。在这种情况下，某些参数将无法被识别。

更改为n=5收益率

PerfectSeparationError：检测到完美分离，结果不可用

归档时间：	6 年，6 月前
查看次数：	1308 次
最近记录：	6 年，6 月前