bco*_*ins 7 python distributed-computing dask
Dask.distributed部署有数百个工作节点的传闻吗?分布是否意味着扩展到这个大小的集群?
MRo*_*lin 10
是
我见过的最大的Dask.distributed集群大约有一千个节点.理论上我们可以变大,但不是很大.
当前限制是调度程序每个任务产生大约200微秒的开销.这相当于每秒约5000个任务.如果您的每个任务大约需要一秒钟,那么调度程序可以使大约5000个核心饱和.
从历史上看,我们遇到了其他限制,例如打开文件句柄限制等.这些已经被清理到我们已经看到的规模(1000个节点),并且在Linux或OSX上通常情况良好.Windows上的Dask调度程序在数百个节点中停止扩展(尽管您可以将Linux调度程序与Windows工作程序一起使用).当我们扩展到10k节点时,我不会惊讶地看到其他问题.
简而言之,您可能不希望使用Dask来替换百万核心Big Iron SuperComputer或Google Scale上的MPI工作负载.否则你可能没事.
| 归档时间: |
|
| 查看次数: |
438 次 |
| 最近记录: |