为什么我只从statsmodels OLS中获得一个参数

Tom*_*Tom 31 python linear-regression pandas statsmodels

这是我在做的事情:

$ python
Python 2.7.6 (v2.7.6:3a1db0d2747e, Nov 10 2013, 00:42:54) 
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin
>>> import statsmodels.api as sm
>>> statsmodels.__version__
'0.5.0'
>>> import numpy 
>>> y = numpy.array([1,2,3,4,5,6,7,8,9])
>>> X = numpy.array([1,1,2,2,3,3,4,4,5])
>>> res_ols = sm.OLS(y, X).fit()
>>> res_ols.params
array([ 1.82352941])
Run Code Online (Sandbox Code Playgroud)

我原本以为有两个元素的数组?!?截距和斜率系数?

beh*_*uri 47

试试这个:

X = sm.add_constant(X)
sm.OLS(y,X)
Run Code Online (Sandbox Code Playgroud)

如在文档中:

默认情况下不包括拦截,应由用户添加

statsmodels.tools.tools.add_constant

  • 我很困惑.为什么默认情况下不会添加拦截?你为什么要在没有*血腥常数的情况下运行线性回归*?对我来说完全是无稽之谈. (6认同)

Tom*_*Tom 6

为了完成,这有效:

>>> import numpy 
>>> import statsmodels.api as sm
>>> y = numpy.array([1,2,3,4,5,6,7,8,9])
>>> X = numpy.array([1,1,2,2,3,3,4,4,5])
>>> X = sm.add_constant(X)
>>> res_ols = sm.OLS(y, X).fit()
>>> res_ols.params
array([-0.35714286,  1.92857143])
Run Code Online (Sandbox Code Playgroud)

它确实给了我一个不同的斜率系数,但我猜这些数字现在我们确实有一个截距.