我的大小38 MB的训练集(12个属性与420000行).我运行下面的R代码片段,训练使用模型randomForest.这对我来说需要几个小时.
rf.model <- randomForest(
Weekly_Sales~.,
data=newdata,
keep.forest=TRUE,
importance=TRUE,
ntree=200,
do.trace=TRUE,
na.action=na.roughfix
)
Run Code Online (Sandbox Code Playgroud)
我认为,由于na.roughfix,它是需要长时间来执行.有这么多的NA's训练集中.
可能有人让我知道我怎么能提高性能?
我的系统配置是:
Intel(R) Core i7 CPU @ 2.90 GHz
RAM - 8 GB
HDD - 500 GB
64 bit OS
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用glmnet包构建模型,但是当我运行以下行时出现以下错误:
#library('glmnet')
x = model.matrix(response ~ ., data = acgh_frame[,c(3:ncol(acgh_frame))])
Error: protect(): protection stack overflow
Run Code Online (Sandbox Code Playgroud)
我知道这是由于我在数据帧中有大量变量(26k +).当我使用较少的变量时,错误不会显示.我知道如何在命令行R中解决这个问题,但我需要留在R studio中,所以我想从R Studio修复它.那么,我该怎么做?