我已经仔细阅读了CARET文档:http://caret.r-forge.r-project.org/training.html,插图,一切都很清楚(网站上的例子帮助很多!)但是我仍然对两个论点之间的关系感到困惑trainControl:
method
index
Run Code Online (Sandbox Code Playgroud)
和之间的相互作用trainControl和数据分割在插入符号的功能(例如createDataPartition,createResample,createFolds和createMultiFolds)
为了更好地构建我的问题,让我使用文档中的以下示例:
data(BloodBrain)
set.seed(1)
tmp <- createDataPartition(logBBB,p = .8, times = 100)
trControl = trainControl(method = "LGOCV", index = tmp)
ctreeFit <- train(bbbDescr, logBBB, "ctree",trControl=trControl)
Run Code Online (Sandbox Code Playgroud)
我的问题是:
如果我使用createDataPartition(这是我认为不分层引导),如上面的例子中,我传递的结果index,以trainControl做我需要使用LGOCV在我的电话的方法trainControl?如果我使用另一个(例如cv)它会有什么不同?在我的脑海中,一旦你修复index,你基本上选择了交叉验证的类型,所以我不确定method你使用时扮演什么角色index.
createDataPartition和之间有什么区别createResample?这是createDataPartition分层自举,而createResample不是吗?
3)如何使用插入符号进行分层 k折叠(例如10倍)交叉验证?以下是否会这样做?
tmp <- createFolds(logBBB, …Run Code Online (Sandbox Code Playgroud) 我正在使用多元金融时间序列数据并且在使用该createTimeSlices函数时遇到问题.除了Max Kuhn使用的功能之外,我找不到任何功能.任何人都可以帮助我理解函数的用法吗?