使用 glmnet 预测数据集中的连续变量

Question

使用 glmnet 预测数据集中的连续变量

Sri*_*ali 0 model r lasso-regression prediction glmnet

我有这个数据集。体重

我想使用 R 包 glmnet 来确定哪些预测变量对预测生育率有用。但是，我一直无法这样做，很可能是因为对软件包没有完全了解。生育变量是 SP.DYN.TFRT.IN。我想看看数据集中哪些预测因子对生育率的预测能力最强。我想使用 LASSO 或岭回归来缩小系数的数量，我知道这个包可以做到这一点。我只是在实施它时遇到了一些麻烦。

我知道没有代码片段让我道歉，但我对如何编写代码感到很迷茫。

任何建议表示赞赏。

感谢您阅读

Answer 1

mis*_*use 5

以下是有关如何运行 glmnet 的示例：

library(glmnet)
library(tidyverse)

Run Code Online (Sandbox Code Playgroud)

df 是您提供的数据集。

选择 y 变量：

y <- df$SP.DYN.TFRT.IN

Run Code Online (Sandbox Code Playgroud)

选择数值变量：

df %>%
  select(-SP.DYN.TFRT.IN, -region, -country.code) %>%
  as.matrix() -> x

Run Code Online (Sandbox Code Playgroud)

选择因子变量并转换为虚拟变量：

df %>%
  select(region, country.code) %>%
  model.matrix( ~ .-1, .) -> x_train

Run Code Online (Sandbox Code Playgroud)

运行模型，这里的几个参数可以调整我建议检查文档。在这里，我只运行 5 折交叉验证来确定最佳 lambda

cv_fit <- cv.glmnet(x, y, nfolds = 5) #just with numeric variables

cv_fit_2 <- cv.glmnet(cbind(x ,x_train), y, nfolds = 5) #both factor and numeric variables

par(mfrow = c(2,1))
plot(cv_fit)
plot(cv_fit_2)

Run Code Online (Sandbox Code Playgroud)

最佳拉姆达：

cv_fit$lambda[which.min(cv_fit$cvm)]

Run Code Online (Sandbox Code Playgroud)

系数最多为 lambda

coef(cv_fit, s = cv_fit$lambda[which.min(cv_fit$cvm)])

Run Code Online (Sandbox Code Playgroud)

相当于：

coef(cv_fit, s = "lambda.min")

Run Code Online (Sandbox Code Playgroud)

运行结果表中的coef(cv_fit, s = "lambda.min")所有特征后，-将从模型中删除。这种情况对应于图中左侧垂直虚线所描绘的左侧 lambda。
我建议阅读链接的文档 - 如果您了解一些线性回归并且程序包非常直观，那么弹性网络很容易掌握。我还建议阅读ISLR，至少是带有 L1 / L2 正则化的部分。和这些视频：1 , 2 , 3 4 , 5 , 6，前三个是关于通过测试错误估计模型性能，后三个是关于手头的问题。这一个是如何在 R 中实现这些模型。顺便说一下，视频中的这些人发明了 LASSO 并制作了 glment。

还要检查glmnetUtils库，它提供了一个公式界面和其他好的东西，比如内置的混合参数 (alpha) 选择。这是小插图。

归档时间：	8 年，2 月前
查看次数：	1611 次
最近记录：	8 年，2 月前