jkm*_*acc 2 dask python-xarray zarr
全部。我正在使用 Dask 分布式集群在循环内编写 Zarr+Dask 支持的 Xarray 数据集,并且dataset.to_zarr
正在阻塞。当存在阻碍循环继续的散乱块时,这确实会减慢速度。有没有办法.to_zarr
异步执行,以便循环可以继续下一个数据集写入而不会被一些落后的块所阻碍?
使用分布式调度程序,您无需任何特殊努力即可获得异步行为。例如,如果您正在执行arr.to_zarr
,那么您确实要等待完成。但是,您可以执行以下操作:
client = Client(...)
out = arr.to_zarr(..., compute=False)
fut = client.compute(out)
Run Code Online (Sandbox Code Playgroud)
这将返回一个未来,fut
,其状态反映了整个计算的当前状态,您可以选择是等待它还是继续提交新工作。您还可以将其显示到进度条(在笔记本中),只要内核不忙,该进度条就会异步更新。
归档时间: |
|
查看次数: |
380 次 |
最近记录: |