当通过 glmnet 包估计套索模型时,我想知道是否更好:(a)直接从 cv.fit 对象中提取系数/预测/偏差cv.glmnet
,或者(b)使用最小 lambda fromcv.glmnet
重新运行glmnet
并从glmnet
进程中拉出这些对象。(请耐心等待——我觉得这已经被记录在案了,但我在网上看到了这两个例子/教程,并且没有可靠的逻辑来选择一种方式。)
也就是说,对于系数,我可以运行(a):
cvfit = cv.glmnet(x=xtrain, y=ytrain, alpha=1, type.measure = "mse", nfolds = 20)
coef.cv <- coef(cvfit, s = "lambda.min")
Run Code Online (Sandbox Code Playgroud)
或者我之后可以运行(b):
fit = glmnet(x=xtrain, y=ytrain, alpha=1, lambda=cvfit$lambda.min)
coef <- coef(fit, s = "lambda.min")
Run Code Online (Sandbox Code Playgroud)
虽然这两个过程选择相同的模型变量,但它们不会产生相同的系数。同样,我可以通过以下两个过程之一进行预测:
prdct <- predict(fit,newx=xtest)
prdct.cv <- predict(cvfit, newx=xtest, s = "lambda.min")
Run Code Online (Sandbox Code Playgroud)
他们预测相似但不相同的向量。
最后,我认为我可以通过以下两种方法之一解释 % 偏差:
percdev <- fit$dev.ratio
percdev.cv <- cvfit$glmnet.fit$dev.ratio[cvfit$cvm==mse.min.cereal]
Run Code Online (Sandbox Code Playgroud)
但实际上,这样拉是不可能的percdev.cv
,因为如果 cv.glmnet 使用的 lambda 序列少于 100 个元素,则cvfit$glmnet.fit$dev.ratio
和的长度cvfit$cvm==mse.min.cereal
不匹配。所以我不太确定如何从 …