我正在使用glmnet包来执行LASSO回归.有没有办法获得所选择的各个变量的重要性?我考虑对通过coef(...)命令获得的系数进行排序(即,从零开始的距离越大,变量就越重要).这是一种有效的方法吗?
谢谢你的帮助!
cvfit = cv.glmnet(x, y, family = "binomial")
coef(cvfit, s = "lambda.min")
## 21 x 1 sparse Matrix of class "dgCMatrix"
## 1
## (Intercept) 0.14936
## V1 1.32975
## V2 .
## V3 0.69096
## V4 .
## V5 -0.83123
## V6 0.53670
## V7 0.02005
## V8 0.33194
## V9 .
## V10 .
## V11 0.16239
## V12 .
## V13 .
## V14 -1.07081
## V15 .
## V16 .
## V17 .
## V18 .
## V19 .
## V20 -1.04341
Run Code Online (Sandbox Code Playgroud)
在比较系数的大小之前,您应该通过将每个系数乘以相应预测变量的标准偏差来对它们进行标准化.这个答案有更详细和有用的链接:https: //stats.stackexchange.com/a/211396/34615
这是如何在caret包中完成的.
总而言之,您可以获取最终系数的绝对值并对它们进行排名.排名系数是您的变量重要性.
要查看源代码,您可以键入
caret::getModelInfo("glmnet")$glmnet$varImp
Run Code Online (Sandbox Code Playgroud)
如果您不想使用caret包,可以从包中运行以下行,它应该可以工作.
varImp <- function(object, lambda = NULL, ...) {
## skipping a few lines
beta <- predict(object, s = lambda, type = "coef")
if(is.list(beta)) {
out <- do.call("cbind", lapply(beta, function(x) x[,1]))
out <- as.data.frame(out)
} else out <- data.frame(Overall = beta[,1])
out <- abs(out[rownames(out) != "(Intercept)",,drop = FALSE])
out
}
Run Code Online (Sandbox Code Playgroud)
最后,用你的拟合来调用这个函数.
varImp(cvfit, lambda = cvfit$lambda.min)
Run Code Online (Sandbox Code Playgroud)