小编Shi*_*ion的帖子

使用bigmemory将40 GB csv文件读入R中

标题在这里非常自我解释,但我将详细说明如下.一些在攻击这个问题我目前的技术是基于中提出的解决方案,这个问题.但是,我面临着一些挑战和限制,所以我想知道是否有人可能会试图解决这个问题.我试图用bigmemory包解决问题,但我遇到了困难.

目前的限制:

  • 使用具有16 GB RAM的Linux服务器
  • 大小为40 GB CSV
  • 行数:67,194,126,114

挑战

  • 需要能够从big.matrix或等效数据结构中随机采样较小的数据集(5-10百万行).
  • 在解析为big.matrix或等效数据结构时,需要能够使用单个NULL实例删除任何行.

到目前为止,结果并不好.显然,我在某些事情上失败了,或许,我只是不太了解大记忆文档.所以,我想我会问这里是否有人使用过

有关此攻击线的任何提示,建议等?或者我应该改变别的吗?如果这个问题与之前的问题非常相似,我很抱歉,但我认为数据规模比以前的问题大20倍.谢谢 !

file-io memory-management r

18
推荐指数
2
解决办法
1万
查看次数

通过比较2个现有列然后删除后者,在R中的数据框中创建新列

我还有一个问题,我过去几个小时一直试图解决这个问题,但没有成功.它涉及R中的一些数据集操作.想象一下,我有以下样本数据集:

a,b,v,r
1,3,1,0
2,5,1,1
3,6,0,1
1,5,1,0
2,4,1,1
3,6,0,1
Run Code Online (Sandbox Code Playgroud)

我需要通过以下规则比较列[v,r]的值来创建第三列(比如m).如果v = 1,则r = 0,则m = 0.如果v = 1,r = 1,则m = 1且如果v = 0,则r = 1,则m = 2.[v,r]永远不能取值(0,0).

我想知道如何创建第三列,并在一行中删除列v,r.谢谢 !

r matrix dataframe

2
推荐指数
1
解决办法
1556
查看次数

标签 统计

r ×2

dataframe ×1

file-io ×1

matrix ×1

memory-management ×1