我有一个我认为很简单的问题:我想创建一组数据块作业(相同的作业,只是不同的参数)并运行它们,但一次只运行 X,直到它们全部完成。
这基本上就像在 python 中使用线程池一样。
举个例子:
我有一项工作(或任务...我想要运行的笔记本)J需要参数p,我有 100 个p想要运行的值,但是我只想一次运行 10 个(假设我有 10 个集群,或者我想要在同一个集群上运行它们,并且该集群需要有足够的计算能力来同时运行它们),但是我希望所有 100 个最终都能运行。
Databricks 可以做到这一点吗?如果我提交的作业数量超过“最大并发作业数”,那么多余的作业就会被跳过。如果我在一个作业中运行多个任务,并且它们彼此不依赖,那么它们都会同时运行。
我缺少什么?
Databricks 最近推出了作业队列!
当达到以下限制之一时,运行将排队:
工作区中的最大并发活动运行数。
工作区中运行的最大并发运行作业任务。
作业的最大并发运行数。
队列是作业级别的属性,队列仅针对该作业运行。
| 归档时间: |
|
| 查看次数: |
1102 次 |
| 最近记录: |