我的问题不是:
硬件/空间:
问题:
将数据上传到h2o需要数小时.这不是任何特殊处理,只有"as.h2o(...)".
使用"fread"将文本放入空间需要不到一分钟,然后我进行一些行/列转换(差异,滞后)并尝试导入.
在尝试任何类型的"as.h2o"之前,总R内存是~56GB,所以分配的128不应该太疯狂,不是吗?
问题:
如果需要不到一个小时加载到h2o,我该怎么办?它应该需要一分钟到几分钟,不再需要.
我尝试过的:
更新:
所以看起来我唯一的选择是创建一个巨大的文本文件,然后使用"h2o.importFile(...)".我写了15GB.
Update2:
这是一个可怕的csv文件,大约22GB(~2.4Mrows,~2300 cols).对于它的价值,从下午12:53到下午2:44花了很多时间来编写csv文件.在编写之后,导入它的速度要快得多.
我正在尝试一个随机森林分类模型,H2O在R中使用具有7000万行和25个数字特征的训练集内的库.总文件大小为5.6 GB.
验证文件的大小为1 GB.
我的系统上有16 GB RAM和8核CPU.
系统成功读取H2O对象中的两个文件.
然后我给出以下命令来构建模型:
model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata,
validation_frame = testdata, ntrees = 150, mtries = 6)
Run Code Online (Sandbox Code Playgroud)
但几分钟后(没有生成任何树),我得到以下错误:
".h2o.doSafeREST中的错误(conn = conn,h2oRestApiVersion = h2oRestApiVersion,:意外的CURL错误:Recv失败:通过对等方重置连接"
但是,如果我尝试上面的代码与1树,它运行成功.
上述错误是否因内存问题而发生?任何帮助将不胜感激.