在 PythonScriptStep 中使用 Dask 集群

And*_*son 4 dask azure-machine-learning-service

是否可以将多节点 Dask 集群用作PythonScriptStepAML 管道的计算?

我们有一个PythonScriptStep使用featuretools's 的深度特征合成 ( dfs) ( docs )。ft.dfs()有一个n_jobs允许并行化的参数。当我们在一台机器上运行时,这项工作需要三个小时,而在 Dask 上运行得更快。如何在 Azure ML 管道中实施此操作?

TDr*_*bas 6

我们一直在工作,最近发布了一个dask_cloudprovider.AzureMLCluster您可能感兴趣的:链接到 repo。您可以通过pip install dask-cloudprovider.

AzureMLCluster与扩大你应该要求节点数百弹性上AzureML服务实例DASK集群。唯一需要的参数是Workspace对象,但您可以ComputeTarget选择传递自己的参数。

您可以在此处找到有关如何使用它的示例。在本例中,我使用我的自定义 GPU/RAPIDS docker 图像,但您可以使用Environment类中的任何图像。

  • 感谢您指向 dask_cloudprovider。但是,示例代码 (https://github.com/drabastomek/GTC/blob/master/SJ_2020/workshop/1_Setup/Setup.ipynb) 没有描述如何在 Dask 集群之上使用 AzureML Pipeline/PythonScriptStep。任何指针将不胜感激。 (2认同)