在关于data.table和并行计算的帖子之后,我试图找到一种方法来实现平行操作data.table.
我有一个data.table包含4百万行14个观察值并希望在公共内存中共享它,以便可以通过使用"并行"包来并行化它上的操作,parLapply 而无需为集群中的每个节点复制表(什么parLapply).目前,移动data.table周围的成本大于并行计算的好处.
我发现"bigmemory"-package是共享内存的答案,但它没有维护数据的"data.table"结构.所以有人知道一种方法:
1)放入data.table共享内存
2)通过这样做来维护数据的"data.table"结构
3)对此使用并行处理data.table?
提前致谢!