我正在使用大约4500个变量的二进制类随机森林.这些变量中的许多变量高度相关,其中一些变量只是原始变量的分位数.我不太确定将PCA用于减少维数是否明智.这会增加模型性能吗?
我希望能够知道哪些变量对我的模型更重要,但如果我使用PCA,我只能说出哪些PC更重要.
提前谢谢了.
我正在研究R中的随机森林,我想将10倍交叉验证添加到我的模型中.但我完全被困在那里.这是我的代码示例.
install.packages('randomForest')
library(randomForest)
set.seed(123)
fit <- randomForest(as.factor(sickrabbit) ~ Feature1,..., FeatureN ,data=training1, importance=TRUE,sampsize = c(200,300),ntree=500)
Run Code Online (Sandbox Code Playgroud)
我在线发现了rfcv插入功能,但我不确定它是如何工作的.任何人都可以帮助这个功能或提出一种更简单的方法来实现交叉验证.你可以使用随机森林包而不是插入符号吗?