我想知道应该如何解释套索回归的输出。举个例子:
library(lasso2)
lm.lasso <- l1ce(mpg ~ . , data=mtcars)
summary(lm.lasso)$coefficients
Run Code Online (Sandbox Code Playgroud)
输出是:
Value Std. Error Z score Pr(>|Z|)
(Intercept) 36.01809203 18.92587647 1.90311355 0.05702573
cyl -0.86225790 1.12177221 -0.76865686 0.44209704
disp 0.00000000 0.01912781 0.00000000 1.00000000
hp -0.01399880 0.02384398 -0.58709992 0.55713660
drat 0.05501092 1.78394922 0.03083659 0.97539986
wt -2.68868427 2.05683876 -1.30719254 0.19114733
qsec 0.00000000 0.75361628 0.00000000 1.00000000
vs 0.00000000 2.31605743 0.00000000 1.00000000
am 0.44530641 2.14959278 0.20715850 0.83588608
gear 0.00000000 1.62955841 0.00000000 1.00000000
carb -0.09506985 0.91237207 -0.10420075 0.91701004
Run Code Online (Sandbox Code Playgroud)
如果我理解正确,套索回归应该基本上最小化对模型不那么重要的特征,因此它们的系数基本上为零。这对于qsec、vs和gear功能来说是有意义的。然而,p 值都相当微不足道。
如果我的系数基本上为零,但 p 值接近 1,我应该相信哪个值?我应该从模型中丢弃该特征,因为它的系数为零,还是因为它的 p 值微不足道而从模型中丢弃它?
原假设是变量系数等于零,对模型没有影响。为了拒绝原假设,您需要有一个低于 0.05 的 p 值,该值越小,您拒绝原假设的信心就越大。
因此,在评估 p 值时,如果该值为 1.00,则意味着没有信心拒绝原假设(它是零影响系数)。
因此,在您的模型中,回归将系数降至零,p 值为 1,它支持您理解套索如何将非影响值降至零系数。你应该相信零和一!