M.D*_*imo 5 memory r plyr dataframe reshape2
目标是为数据框中的因子/字符串变量创建指标.那个数据帧有> 2mm的行,并且在Windows上运行R,我没有选择使用plyr和.parallel = T. 所以我正在与plyr和reshape2一起采取"分而治之"的路线.
运行融化和强制转换耗尽内存,并使用
ddply( idata.frame(items) , c("ID") , function(x){
( colSums( model.matrix( ~ x$element - 1) ) > 0 )
} , .progress="text" )
Run Code Online (Sandbox Code Playgroud)
要么
ddply( idata.frame(items) , c("ID") , function(x){
( elements %in% x$element )
} , .progress="text" )
Run Code Online (Sandbox Code Playgroud)
确实需要一段时间.最快的方法是调用下面的tapply.你有没有办法加快速度?%in语句的运行速度比model.matrix调用快.谢谢.
set.seed(123)
dd <- data.frame(
id = sample( 1:5, size=10 , replace=T ) ,
prd = letters[sample( 1:5, size=10 , replace=T )]
)
prds <- unique(dd$prd)
tapply( dd$prd , dd$id , function(x) prds %in% x )
Run Code Online (Sandbox Code Playgroud)
对于这个问题,包bigmemory和bigtabulate可能是你的朋友。这是一个稍微更雄心勃勃的例子:
library(bigmemory)
library(bigtabulate)
set.seed(123)
dd <- data.frame(
id = sample( 1:15, size=2e6 , replace=T ),
prd = letters[sample( 1:15, size=2e6 , replace=T )]
)
prds <- unique(dd$prd)
benchmark(
bigtable(dd,c(1,2))>0,
table(dd[,1],dd[,2])>0,
xtabs(~id+prd,data=dd)>0,
tapply( dd$prd , dd$id , function(x) prds %in% x )
)
Run Code Online (Sandbox Code Playgroud)
以及基准测试的结果(我一直在学习新东西):
test replications elapsed relative user.self sys.self user.child sys.child
1 bigtable(dd, c(1, 2)) > 0 100 54.401 1.000000 51.759 3.817 0 0
2 table(dd[, 1], dd[, 2]) > 0 100 112.361 2.065422 107.526 6.614 0 0
4 tapply(dd$prd, dd$id, function(x) prds %in% x) 100 178.308 3.277660 166.544 13.275 0 0
3 xtabs(~id + prd, data = dd) > 0 100 229.435 4.217478 217.014 16.660 0 0
Run Code Online (Sandbox Code Playgroud)
这表明bigtable我们以相当大的优势获胜。结果几乎是所有 prd 都在所有 ID 中,但?bigtable有关结果格式的详细信息请参阅 参考资料。
| 归档时间: |
|
| 查看次数: |
201 次 |
| 最近记录: |