小编rks*_*rks的帖子

为什么连接正在终止

我正在尝试一个随机森林分类模型,H2O在R中使用具有7000万行和25个数字特征的训练集内的库.总文件大小为5.6 GB.

验证文件的大小为1 GB.

我的系统上有16 GB RAM和8核CPU.

系统成功读取H2O对象中的两个文件.

然后我给出以下命令来构建模型:

model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata, 
                          validation_frame = testdata, ntrees = 150, mtries = 6)
Run Code Online (Sandbox Code Playgroud)

但几分钟后(没有生成任何树),我得到以下错误:

".h2o.doSafeREST中的错误(conn = conn,h2oRestApiVersion = h2oRestApiVersion,:意外的CURL错误:Recv失败:通过对等方重置连接"

但是,如果我尝试上面的代码与1树,它运行成功.

上述错误是否因内存问题而发生?任何帮助将不胜感激.

memory r out-of-memory random-forest h2o

6
推荐指数
2
解决办法
4291
查看次数

从满足给定条件的数值向量中找出长度为k的连续子向量

比方说,我在R中有一个数字向量

v= c(2,3,5,6,7,6,3,2,3,4,5,7,8,9,6,1,1,2,5,6,7,11,2,3,4)
Run Code Online (Sandbox Code Playgroud)

现在,我必须找到所有大小为4的连续子向量,其条件是子向量的每个元素必须大于2,并且所有子向量必须是不相交的,即非两个子向量可以包含相同的索引元素.所以我的输出将是:

(3,5,6,7),(3,4,5,7),(5,6,7,11)
Run Code Online (Sandbox Code Playgroud)

编辑: 用于说明目的的其他示例:for,

v=c(3,3,3,3,1,3,3,3,3,3,3,3,3) 
Run Code Online (Sandbox Code Playgroud)

输出将是:

(3,3,3,3), (3,3,3,3),(3,3,3,3).
Run Code Online (Sandbox Code Playgroud)

并为

v= c(2,3,5,5,7,6,3,2,3,4,5,7,8,9,6,1,1,2,5,6,7,11,2,3,4) 
Run Code Online (Sandbox Code Playgroud)

输出将是

(3,5,5,7),(3,4,5,7),(5,6,7,11)
Run Code Online (Sandbox Code Playgroud)

输出的第二个条件只是说如果我们发现任何子阵列说(v[m],v[m+1],v[m+2],v[m+3])每个元素大于> 2那么它将进入我的输出而下一个子数组只能从v[m+4](如果可能的话)开始

r

3
推荐指数
1
解决办法
499
查看次数

使用Spark解码一组二进制文件

我有一千个压缩格式的二进制文件,每个文件都需要通过一次解码分别解码。文件的最大大小为500 MB。目前,我能够使用python(带有struct包)来一对一地解码文件。但是,由于文件的数量和大小很大,因此无法顺序解码文件。

我正在考虑在Spark中处理这些数据,但是我在Spark中没有很多经验。您能建议一下是否可以立即完成此任务。提前谢谢了。

apache-spark

3
推荐指数
1
解决办法
3087
查看次数

标签 统计

r ×2

apache-spark ×1

h2o ×1

memory ×1

out-of-memory ×1

random-forest ×1