用插入符号库预测GBM的概率

ene*_*ene 6 r r-caret

然而,一个类似的问题被问到答案中的链接指向随机森林的例子,它似乎在我的情况下不起作用.

这是我正在尝试做的一个例子:

gbmGrid <-  expand.grid(interaction.depth = c(5, 9),
                    n.trees = (1:3)*200,
                    shrinkage = c(0.05, 0.1))

fitControl <- trainControl(
                       method = "cv",
                       number = 3,
                       classProbs = TRUE)

gbmFit <- train(strong~.-Id-PlayerName, data = train[1:10000,],
             method = "gbm",
             trControl = fitControl,
             verbose = TRUE,
             tuneGrid = gbmGrid)
gbmFit
Run Code Online (Sandbox Code Playgroud)

一切顺利,我得到最好的参数.现在,如果我做预测:

predictStrong = predict(gbmFit, newdata=train[11000:50000,])
Run Code Online (Sandbox Code Playgroud)

我得到了一个预测的二元向量,这很好:

[1] 0 1 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 1 ...
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试获取概率时,我收到一个错误:

predictStrong = predict(gbmFit, newdata=train[11000:50000,], type="prob")

Error in `[.data.frame`(out, , obsLevels, drop = FALSE) : 
undefined columns selected
Run Code Online (Sandbox Code Playgroud)

哪里好像是问题?

附加信息:

traceback()
5: stop("undefined columns selected")
4: `[.data.frame`(out, , obsLevels, drop = FALSE)
3: out[, obsLevels, drop = FALSE]
2: predict.train(gbmFit, newdata = train[11000:50000, ], type = "prob")
1: predict(gbmFit, newdata = train[11000:50000, ], type = "prob")
Run Code Online (Sandbox Code Playgroud)

版本:

R version 3.1.0 (2014-04-10) -- "Spring Dance"
Copyright (C) 2014 The R Foundation for Statistical Computing
Platform: x86_64-unknown-linux-gnu (64-bit)

caret version: 6.0-29
Run Code Online (Sandbox Code Playgroud)

编辑:我也看过这个主题,我没有得到关于变量名称的错误,虽然我有几个带下划线的变量名称,我认为它是有效的,因为我使用make.names并获得与原始名称相同的名称.

colnames(train) == make.names(colnames(train))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
Run Code Online (Sandbox Code Playgroud)

top*_*epo 9

当请求类概率时,train将它们放入一个数据框中,每个类都有一列.如果因子级别不是有效的变量名称,则它们会自动更改(例如"0"变为"X0").train在这种情况下发出警告,类似于"至少有一个类级别不是有效的R变量名称.如果生成类概率,这可能会导致错误."