在逻辑回归中输入整个数据框作为自变量

Question

可能重复:
构建模型时对许多变量进行简短的公式调用

我有一个很大的数据框(112个变量),我想用R做逐步逻辑回归.我知道如何设置glm模型和stepAIC模型,但我宁愿不输入所有的标题来输入自变量.是否有一种快速方法可以将glm模型作为独立变量提供给整个数据框,以便将每个列识别为包含在模型中的x变量？我试过了:

ft<-glm(MFDUdep~MFDUind, family=binomial)

但它不起作用(错误的数据类型).MFDUdep和MFDUind都是数据帧,MFDUind包含111个'x'变量并MFDUdep包含单个"y".

Answer 1

您需要.公式表示法中的特殊符号.此外,在单个数据框中拥有响应和预测变量可能更好.

尝试:

MFDU <- cbind(MFDUdep, MFDUind)
ft <- glm(y ~ ., data = MFDU, family = binomial)

既然我已经给你了绳索,我不得不至少警告你有可能挂...

您采用的方法通常不是推荐的方法,除非预测是模型的目的.所选变量的回归系数可能存在很大的偏差,因此如果您将其用于启蒙,那么请重新考虑您的方法.

您还需要大量观察才能在模型中使用100多个术语.

存在更好的选择; 例如,参见glmnet包中的一种这样的方法,该方法允许系数集上的脊,套索或两者(弹性网)约束,这允许人们以少量额外偏差为代价来最小化模型误差.