Dask.distributed的扩展限制是多少?

bco*_*ins 7 python distributed-computing dask

Dask.distributed部署有数百个工作节点的传闻吗?分布是否意味着扩展到这个大小的集群?

MRo*_*lin 10

我见过的最大的Dask.distributed集群大约有一千个节点.理论上我们可以变大,但不是很大.

当前限制是调度程序每个任务产生大约200微秒的开销.这相当于每秒约5000个任务.如果您的每个任务大约需要一秒钟,那么调度程序可以使大约5000个核心饱和.

从历史上看,我们遇到了其他限制,例如打开文件句柄限制等.这些已经被清理到我们已经看到的规模(1000个节点),并且在Linux或OSX上通常情况良好.Windows上的Dask调度程序在数百个节点中停止扩展(尽管您可以将Linux调度程序与Windows工作程序一起使用).当我们扩展到10k节点时,我不会惊讶地看到其他问题.

简而言之,您可能不希望使用Dask来替换百万核心Big Iron SuperComputer或Google Scale上的MPI工作负载.否则你可能没事.

  • 您可以将Linux计划程序与Windows工作程序一起使用.如果您可以在其中一台Windows计算机上启动虚拟机,那么您将会成千上万. (4认同)