相关疑难解决方法(0)

使用bigmemory将40 GB csv文件读入R中

标题在这里非常自我解释,但我将详细说明如下.一些在攻击这个问题我目前的技术是基于中提出的解决方案,这个问题.但是,我面临着一些挑战和限制,所以我想知道是否有人可能会试图解决这个问题.我试图用bigmemory包解决问题,但我遇到了困难.

目前的限制:

  • 使用具有16 GB RAM的Linux服务器
  • 大小为40 GB CSV
  • 行数:67,194,126,114

挑战

  • 需要能够从big.matrix或等效数据结构中随机采样较小的数据集(5-10百万行).
  • 在解析为big.matrix或等效数据结构时,需要能够使用单个NULL实例删除任何行.

到目前为止,结果并不好.显然,我在某些事情上失败了,或许,我只是不太了解大记忆文档.所以,我想我会问这里是否有人使用过

有关此攻击线的任何提示,建议等?或者我应该改变别的吗?如果这个问题与之前的问题非常相似,我很抱歉,但我认为数据规模比以前的问题大20倍.谢谢 !

file-io memory-management r

18
推荐指数
2
解决办法
1万
查看次数

标签 统计

file-io ×1

memory-management ×1

r ×1