Databricks：运行队列中的所有作业

Question

我有一个我认为很简单的问题：我想创建一组数据块作业（相同的作业，只是不同的参数）并运行它们，但一次只运行 X，直到它们全部完成。

这基本上就像在 python 中使用线程池一样。

举个例子：

我有一项工作（或任务...我想要运行的笔记本）J需要参数p，我有 100 个p想要运行的值，但是我只想一次运行 10 个（假设我有 10 个集群，或者我想要在同一个集群上运行它们，并且该集群需要有足够的计算能力来同时运行它们），但是我希望所有 100 个最终都能运行。

Databricks 可以做到这一点吗？如果我提交的作业数量超过“最大并发作业数”，那么多余的作业就会被跳过。如果我在一个作业中运行多个任务，并且它们彼此不依赖，那么它们都会同时运行。

我缺少什么？

Answer 1

Databricks 最近推出了作业队列！

当达到以下限制之一时，运行将排队：

工作区中的最大并发活动运行数。

工作区中运行的最大并发运行作业任务。

作业的最大并发运行数。

队列是作业级别的属性，队列仅针对该作业运行。