解释sklearn中的逻辑回归特征系数值

Jan*_*lly 9 python feature-selection scikit-learn logistic-regression coefficients

我已经为我的数据拟合了逻辑回归模型。想象一下,我有四个特征:1)参与者收到的条件,2)参与者是否对所测试的现象有任何先验知识/背景(实验后问卷中的二元反应),3)在实验任务上花费的时间,以及4) 参与者年龄。我试图预测参与者最终是选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数 clf.coef_

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]
Run Code Online (Sandbox Code Playgroud)

如果选项 A 是我的正类,这个输出是否意味着特征 3 是二元分类中最重要的特征,并且与选择选项 A 的参与者有负相关(注意:我没有标准化/重新缩放我的数据)?我想确保我对系数的理解以及我可以从中提取的信息是正确的,因此我不会在我的分析中做出任何概括或错误假设。

谢谢你的帮助!

roc*_*ady 4

您正在走上正确的轨道。如果一切都非常相似,则在所有条件相同的情况下,较大的正/负系数意味着更大的影响。

但是,如果您的数据未标准化,则 Marat 是正确的,因为系数的大小没有任何意义(没有上下文)。例如,您可以通过将测量单位更改为更大或更小来获得不同的系数。

我看不出您是否在这里包含了非零截距,但请记住,逻辑回归系数实际上是优势比,您需要将它们转换为概率以获得更直接可解释的东西。

查看此页面以获得很好的解释: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression /