相关疑难解决方法(0)

如何快速将数据导入h2o

我的问题不是:

硬件/空间:

  • 32个Xeon线程w/~256 GB Ram
  • ~65 GB的数据上传.(约56亿个细胞)

问题:
将数据上传到h2o需要数小时.这不是任何特殊处理,只有"as.h2o(...)".

使用"fread"将文本放入空间需要不到一分钟,然后我进行一些行/列转换(差异,滞后)并尝试导入.

在尝试任何类型的"as.h2o"之前,总R内存是~56GB,所以分配的128不应该太疯狂,不是吗?

问题:
如果需要不到一个小时加载到h2o,我该怎么办?它应该需要一分钟到几分钟,不再需要.

我尝试过的:

  • 'h2o.init'中撞击高达128 GB的ram
  • 使用slam,data.table和options(...
  • 在"as.h2o"之前转换为"as.data.frame"
  • 写入csv文件(r write.csv chokes并永远占用.虽然我写了很多GB,所以我理解).
  • 写入sqlite3,表的列数太多,这很奇怪.
  • 检查驱动器缓存/交换以确保有足够的GB.也许java正在使用缓存.(还在工作)

更新:
所以看起来我唯一的选择是创建一个巨大的文本文件,然后使用"h2o.importFile(...)".我写了15GB.

Update2:
这是一个可怕的csv文件,大约22GB(~2.4Mrows,~2300 cols).对于它的价值,从下午12:53到下午2:44花了很多时间来编写csv文件.在编写之后,导入它的速度要快得多.

sqlite import r h2o

7
推荐指数
1
解决办法
691
查看次数

为什么连接正在终止

我正在尝试一个随机森林分类模型,H2O在R中使用具有7000万行和25个数字特征的训练集内的库.总文件大小为5.6 GB.

验证文件的大小为1 GB.

我的系统上有16 GB RAM和8核CPU.

系统成功读取H2O对象中的两个文件.

然后我给出以下命令来构建模型:

model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata, 
                          validation_frame = testdata, ntrees = 150, mtries = 6)
Run Code Online (Sandbox Code Playgroud)

但几分钟后(没有生成任何树),我得到以下错误:

".h2o.doSafeREST中的错误(conn = conn,h2oRestApiVersion = h2oRestApiVersion,:意外的CURL错误:Recv失败:通过对等方重置连接"

但是,如果我尝试上面的代码与1树,它运行成功.

上述错误是否因内存问题而发生?任何帮助将不胜感激.

memory r out-of-memory random-forest h2o

6
推荐指数
2
解决办法
4291
查看次数

标签 统计

h2o ×2

r ×2

import ×1

memory ×1

out-of-memory ×1

random-forest ×1

sqlite ×1