小编O. *_*ngl的帖子

在关于data.table和并行计算的帖子之后,我试图找到一种方法来实现平行操作data.table.

我有一个data.table包含4百万行14个观察值并希望在公共内存中共享它,以便可以通过使用"并行"包来并行化它上的操作,parLapply 而无需为集群中的每个节点复制表(什么parLapply).目前,移动data.table周围的成本大于并行计算的好处.

我发现"bigmemory"-package是共享内存的答案,但它没有维护数据的"data.table"结构.所以有人知道一种方法:

1)放入data.table共享内存

2)通过这样做来维护数据的"data.table"结构

3)对此使用并行处理data.table？

提前致谢!

7
推荐指数

1
解决办法

479
查看次数

r ×1

小编O. _ngl的帖子