Databricks:运行队列中的所有作业

And*_*ott 5 databricks

我有一个我认为很简单的问题:我想创建一组数据块作业(相同的作业,只是不同的参数)并运行它们,但一次只运行 X,直到它们全部完成。

这基本上就像在 python 中使用线程池一样。

举个例子:

我有一项工作(或任务...我想要运行的笔记本)J需要参数p,我有 100 个p想要运行的值,但是我只想一次运行 10 个(假设我有 10 个集群,或者我想要在同一个集群上运行它们,并且该集群需要有足够的计算能力来同时运行它们),但是我希望所有 100 个最终都能运行。

Databricks 可以做到这一点吗?如果我提交的作业数量超过“最大并发作业数”,那么多余的作业就会被跳过。如果我在一个作业中运行多个任务,并且它们彼此不依赖,那么它们都会同时运行。

我缺少什么?

Mar*_*Roy 0

Databricks 最近推出了作业队列!

这是它的(简短)文档

当达到以下限制之一时,运行将排队:

  • 工作区中的最大并发活动运行数。

  • 工作区中运行的最大并发运行作业任务。

  • 作业的最大并发运行数。

队列是作业级别的属性,队列仅针对该作业运行。

在此输入图像描述 在此输入图像描述