内存有效替代rbind-in-place rbind？

n1 <- 1000000
n2 <- 1000000
ncols <- 20
dtf1 <- as.data.frame(matrix(sample(n1*ncols), n1, ncols))
dtf2 <- as.data.frame(matrix(sample(n2*ncols), n1, ncols))

dtf <- list()

for(i in names(dtf1)){
  dtf[[i]] <- c(dtf1[[i]],dtf2[[i]])
}

attr(dtf,"row.names") <- 1:(n1+n2)
attr(dtf,"class") <- "data.frame"

Run Code Online (Sandbox Code Playgroud)

它会删除你实际拥有的rownames(你可以重建它们,但检查重复的rownames!).它也没有执行rbind中包含的所有其他测试.

在我的测试中节省了大约一半的内存,在我的测试中,dtfcomb和dtf都相等.红色框是rbind,黄色框是我基于列表的方法.

在此输入图像描述

测试脚本:

n1 <- 3000000
n2 <- 3000000
ncols <- 20

dtf1 <- as.data.frame(matrix(sample(n1*ncols), n1, ncols))
dtf2 <- as.data.frame(matrix(sample(n2*ncols), n1, ncols))

gc()
Sys.sleep(10)
dtfcomb <- rbind(dtf1,dtf2)
Sys.sleep(10)
gc()
Sys.sleep(10)
rm(dtfcomb)
gc()
Sys.sleep(10)
dtf <- list()
for(i in names(dtf1)){
  dtf[[i]] <- c(dtf1[[i]],dtf2[[i]])
}
attr(dtf,"row.names") <- 1:(n1+n2)
attr(dtf,"class") <- "data.frame"
Sys.sleep(10)
gc()
Sys.sleep(10)
rm(dtf)
gc()

Run Code Online (Sandbox Code Playgroud)

Answer 3

Seb*_*ian 10

现在我制定了以下解决方案:

nextrow = nrow(df)+1
df[nextrow:(nextrow+nrow(df.extension)-1),] = df.extension
# we need to assure unique row names
row.names(df) = 1:nrow(df)

Run Code Online (Sandbox Code Playgroud)

现在我的内存不足.我认为这是因为我存储

object.size(df) + 2 * object.size(df.extension)

Run Code Online (Sandbox Code Playgroud)

而rbind R则需要

object.size(rbind(df,df.extension)) + object.size(df) + object.size(df.extension).

Run Code Online (Sandbox Code Playgroud)

之后,我使用

rm(df.extension)
gc(reset=TRUE)

Run Code Online (Sandbox Code Playgroud)

释放我不再需要的记忆.

这解决了我现在的问题,但我觉得有一种更先进的方法来做一个内存有效的rbind.我感谢对此解决方案的任何评论.

Answer 4

Ite*_*tor 5

这是一个完美的候选人bigmemory.有关更多信息,请访问该站点.以下是需要考虑的三个使用方面:

可以使用HD:内存映射到HD比几乎任何其他访问快得多,因此您可能看不到任何减速.有时我依赖> 1TB的内存映射矩阵,但大多数都在6到50GB之间.此外,由于对象是矩阵,因此为了使用该对象,这不需要重写代码的实际开销.
无论是否使用文件支持的矩阵,都可以使用separated = TRUE以使列分离.我没有用过这么多,因为我的第三个提示:
您可以过度分配HD空间以允许更大的潜在矩阵大小,但仅加载感兴趣的子矩阵.这种方式没有必要这样做rbind.

注意:虽然解决数据帧和bigmemory的原始问题适用于矩阵,但是可以轻松地为不同类型的数据创建不同的矩阵,然后将这些对象组合在RAM中以创建数据帧(如果确实有必要的话).

归档时间：	14 年，2 月前
查看次数：	10775 次
最近记录：	12 年，7 月前