Foo*_*Bar 8 python numpy statsmodels
我正在运行如下的回归(df是一个pandas数据帧):
import statsmodels.api as sm
est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit()
est.summary()
Run Code Online (Sandbox Code Playgroud)
除其他外,这给了我一个R平方0.942.那么我想绘制原始y-values值和拟合值.为此,我对原始值进行了排序:
orig = df['p'].values
fitted = est.fittedvalues.values
args = np.argsort(orig)
import matplotlib.pyplot as plt
plt.plot(orig[args], 'bo')
plt.plot(orig[args]-resid[args], 'ro')
plt.show()
Run Code Online (Sandbox Code Playgroud)
然而,这给了我一个图表,其中值完全关闭.什么都没有表明R平方0.9.因此,我试图自己手动计算:
yBar = df['p'].mean()
SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum()
SSReg = ((est.fittedvalues - yBar)**2).sum()
1 - SSReg/SSTot
Out[79]: 0.2618159806908984
Run Code Online (Sandbox Code Playgroud)
难道我做错了什么?或者,为什么我的计算与statsmodels得到的结果相差甚远?SSTot,SSReg有价值48084,35495.
如果在模型中不包含截距(常数解释变量),则statsmodels会根据非居中的总平方和计算R平方,即.
tss = (ys ** 2).sum() # un-centred total sum of squares
Run Code Online (Sandbox Code Playgroud)
而不是
tss = ((ys - ys.mean())**2).sum() # centred total sum of squares
Run Code Online (Sandbox Code Playgroud)
结果,R平方会高得多.
这在数学上是正确的.因为,R平方应该表明与简化模型相比,全模型解释了多少变化.如果将模型定义为:
ys = beta1 . xs + beta0 + noise
Run Code Online (Sandbox Code Playgroud)
那么简化模型可以是:ys = beta0 + noise,其中估计值beta0是样本平均值,因此我们得到:noise = ys - ys.mean().这就是具有拦截的模型中的含义.
但是从一个模型:
ys = beta . xs + noise
Run Code Online (Sandbox Code Playgroud)
你可能只会减少到:ys = noise.由于noise假定为零均值,您可能不会减去ys.因此,简化模型中无法解释的变化是无中心的总平方和.
这是记录在这里下rsquared的项目.设置yBar等于零,我希望你会得到相同的数字.
小智 5
如果您的型号是:
a = <yourmodel>.fit()
Run Code Online (Sandbox Code Playgroud)
然后,计算拟合值:
a.fittedvalues
Run Code Online (Sandbox Code Playgroud)
并计算 R 平方:
a.rsquared
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
8047 次 |
| 最近记录: |