小编Sta*_*ert的帖子

当计算速度比分布式 dask 中的传输速度快时,如何复制数据?

我有一个较大的对象 (150 MB),我需要向所有 dask 分布式工作人员广播它,以便它可以在未来的任务中使用。我尝试了几种方法:

  • Client.scatter(broadcast=True):这需要从一台机器(我在其中运行客户端和调度程序)发送所有数据,这会造成带宽瓶颈。
  • Client.submit其次是Client.replicate:这些工作人员共享一个文件系统,因此我可以安排加载数据的任务,然后将数据复制到所有工作人员,而不是发送数据。这似乎使用树策略来分发数据,这比之前的选项更快。

但是,强制每个工作人员在本地运行加载数据功能可能会更快,而不是在一个工作人员上加载数据并将其序列化到工作人员之间。有没有办法做到这一点? Client.run似乎是我想要的一部分,但我需要为加载的数据取回一个未来,我可以稍后将其传递给其他任务。

dask dask-distributed

5
推荐指数
1
解决办法
244
查看次数

标签 统计

dask ×1

dask-distributed ×1