我正在尝试glmnet在数据集上使用该包.我正在使用cv.glmnet()获取lambda值glmnet().这是数据集和错误消息:
> head(t2)
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
1 1 1 0.7661266 45 2 0.80298213 9120 13 0 6 0 2
2 2 0 0.9571510 40 0 0.12187620 2600 4 0 0 0 1
3 3 0 0.6581801 38 1 0.08511338 3042 2 1 0 0 0
4 4 0 0.2338098 30 0 0.03604968 3300 5 0 0 0 0
5 5 0 0.9072394 49 1 0.02492570 63588 7 0 1 0 0
6 6 0 0.2131787 74 0 0.37560697 3500 3 0 1 0 1
> str(t2)
'data.frame': 150000 obs. of 12 variables:
$ X1 : int 1 2 3 4 5 6 7 8 9 10 ...
$ X2 : int 1 0 0 0 0 0 0 0 0 0 ...
$ X3 : num 0.766 0.957 0.658 0.234 0.907 ...
$ X4 : int 45 40 38 30 49 74 57 39 27 57 ...
$ X5 : int 2 0 1 0 1 0 0 0 0 0 ...
$ X6 : num 0.803 0.1219 0.0851 0.036 0.0249 ...
$ X7 : int 9120 2600 3042 3300 63588 3500 NA 3500 NA 23684 ...
$ X8 : int 13 4 2 5 7 3 8 8 2 9 ...
$ X9 : int 0 0 1 0 0 0 0 0 0 0 ...
$ X10: int 6 0 0 0 1 1 3 0 0 4 ...
$ X11: int 0 0 0 0 0 0 0 0 0 0 ...
$ X12: int 2 1 0 0 0 1 0 0 NA 2 ...
> cv1 <- cv.glmnet(t2[,-c(1,2,7,12)], t2[,2], family="multinomial")
Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs, :
(list) object cannot be coerced to type 'double'
Run Code Online (Sandbox Code Playgroud)
我将它们排除在第1,2,7,12列之外:id列,响应列,包含NA,并包含NA.任何建议都会很棒.
Hon*_*Ooi 54
cv.glmnet期望一个预测变量矩阵,而不是数据帧.通常你可以通过这个来获得
X <- model.matrix(<formula>, data=<data>)
Run Code Online (Sandbox Code Playgroud)
但在你的情况下,你可以更轻松地到达那里
X <- as.matrix(t2[,-c(1,2,7,12)])
Run Code Online (Sandbox Code Playgroud)
因为您似乎没有任何因素变量或其他可能使问题复杂化的问题.
由于这个答案得到了大量的响应:glmnetUtils包为glmnet提供了一个基于公式的接口,就像用于大多数R建模功能的接口一样.它包括对方法glmnet和cv.glmnet,以及一个新的cva.glmnet功能,为α和拉姆达做交叉验证.
以上将成为
cv.glmnet(X2 ~ ., data=t2[-1], family="multinomial")
Run Code Online (Sandbox Code Playgroud)
NA会自动处理,因此您不必排除缺少值的列.
| 归档时间: |
|
| 查看次数: |
56397 次 |
| 最近记录: |