在单变量最小二乘回归中,多重R平方和调整后的R平方有什么区别?

fma*_*ark 40 statistics regression r

有人可以向统计上的天真解释Multiple R-squared和之间的区别Adjusted R-squared是什么?我正在进行单变量回归分析,如下所示:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))
Run Code Online (Sandbox Code Playgroud)

结果:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
Run Code Online (Sandbox Code Playgroud)

nei*_*fws 60

调整后的R平方中的"调整"与变量的数量和观察的数量有关.

如果你不断向模型添加变量(预测变量),R平方将会改善 - 也就是说,预测变量似乎可以解释方差 - 但是其中一些改进可能仅仅是因为偶然性.所以调整后的R平方试图通过考虑比率(N-1)/(Nk-1)来校正这一点,其中N =观测数量和k =变量数量(预测变量).

在你的情况下,这可能不是一个问题,因为你只有一个变量.

一些参考:

  1. R平方有多高?
  2. 拟合优度统计
  3. 多重回归
  4. Re:多元回归中的"调整R ^ 2"是什么


Geo*_*tas 8

调整后的R平方接近但不同于R2的值.它不是基于所解释的平方和SSR和总平方和SSY,而是基于总方差(我们通常不计算的数量),s2T = SSY /(n-1)和误差方差MSE (来自ANOVA表)并且计算如下:调整后的R平方=(s2T-MSE)/ s2T.

由于添加了解释变量,这种方法为判断拟合的改善提供了更好的基础,但它没有R2具有的简单总结解释.

如果我没有犯错,你应该验证调整后的R平方和R平方的值如下:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
Run Code Online (Sandbox Code Playgroud)

另一方面,R2为:SSR/SSY,其中SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 
Run Code Online (Sandbox Code Playgroud)


Jay*_*Jay 7

R平方不依赖于模型中的变量数.调整后的R平方为.

调整后的R平方增加了向模型添加变量的惩罚,这些变量与您尝试解释的变量不相关.您可以使用它来测试变量是否与您尝试解释的事物相关.

调整后的R平方是R平方,添加了一些除法,使其依赖于模型中的变量数.