修改大R data.frame时内存不足

require(data.table)
DT = as.data.table(dataframe)
# say column name 17 is 'Q' (i.e. LETTERS[17])
# then any of the following :

DT[37544, Q:=0]                # using column name (often preferred)

DT[37544, 17:=0, with=FALSE]   # using column number

col = "Q"
DT[37544, col:=0, with=FALSE]  # variable holding name

col = 17
DT[37544, col:=0, with=FALSE]  # variable holding number

set(DT,37544L,17L,0)           # using set(i,j,value) in v1.8.0
set(DT,37544L,"Q",0)

Run Code Online (Sandbox Code Playgroud)

但是,请查看链接的问题和软件包的文档,看看:=这个简单的例子是如何更通用的; 例如,:=在i连接中结合二进制搜索.

Answer 2

Dir*_*tel 8

在与内存相关的R讨论的上下文中查找"copy-on-write".只要(可能非常大的)数据结构的一部分发生更改,就会生成副本.

一个有用的经验法则是,如果您的最大对象是N mb/gb/... large,则需要大约3*N的RAM.这就是解释系统的生命.

多年前,当我不得不在机器上处理大量数据(相对于数据量相对较低的32位机器)时,我很好地利用了早期版本的bigmemory软件包.它使用"外部指针"接口将大量内存保存在R之外.这不仅可以节省'3x'因素,而且可能更多,因为你可能会使用非连续内存(这是R喜欢的另一件事) ).

@agmao或者你可以尝试`data.table`中的`:=`,它完全符合你的要求. (7认同)

Answer 3

Sim*_*nek 7

数据框是您可以选择进行修改的最差结构.由于所有功能的复杂处理(例如保持行名称同步,部分匹配等)在纯R代码中完成(与大多数其他可直接转换为C的对象不同),他们倾向于强制使用其他副本作为你无法就地编辑它们.检查R-devel对此的详细讨论 - 已经多次讨论了它.

实际的规则是永远不要将数据帧用于大数据,除非您将它们视为只读.如果您处理向量或矩阵,那么您的效率会更高.

归档时间：	13 年，12 月前
查看次数：	2687 次
最近记录：	12 年，11 月前