SAR*_*ose 6 dask databricks dask-distributed azure-databricks
我想在 Databricks 上使用 Dask。这应该是可能的(我不明白为什么不可以)。如果我导入它,会发生两种情况之一,要么我得到一个ImportError,但是当我安装distributed来解决这个问题时,DataBricks 只是说Cancelled没有抛出任何错误。
现在,Dask 社区提供了一个dask-databricks软件包,可以快速设置在多节点 Databricks 上与 Spark/Photon 一起运行 Dask 集群。通过这种方式,您可以运行一个集群,然后在同一基础设施上使用任一框架。
您创建一个 init 脚本来安装dask-databricks并使用 Dask CLI 命令来启动 Dask 集群组件。
#!/bin/bash
# Install Dask + Dask Databricks
/databricks/python/bin/pip install --upgrade dask[complete] dask-databricks
# Start Dask cluster components
dask databricks run
Run Code Online (Sandbox Code Playgroud)
然后,在 Databricks Notebook 中,您可以使用该实用程序获取Dask 客户端dask_databricks.get_client()对象。
import dask_databricks
client = dask_databricks.get_client()
Run Code Online (Sandbox Code Playgroud)
它还设置通过 Databricks Web 代理对 Dask 仪表板的访问。


我认为我们没有听说过有人在 databricks 下使用 Dask,但只要它只是 python,它很可能是可能的。
Dask 的默认调度程序是线程,这是最有可能起作用的。在这种情况下,您甚至不需要安装distributed.
对于 Canceled 错误,听起来您正在使用分布式,并且猜测系统不允许您启动额外的进程(您可以使用模块对此进行测试subprocess)。要解决这个问题,你可以这样做
client = dask.distributed.Client(processes=False)
Run Code Online (Sandbox Code Playgroud)
当然,如果确实是你需要的流程,那就不太好了。另外,我不知道如何公开仪表板的端口。
| 归档时间: |
|
| 查看次数: |
5444 次 |
| 最近记录: |