如何在Google Dataproc上运行两个并行作业

Question

我有一份工作需要很长时间才能在DataProc上运行.与此同时,我需要能够运行其他较小的工作.

根据我从Google Dataproc文档中收集的内容,该平台应该支持多个作业,因为它使用YARN动态分配资源.

但是,当我尝试启动多个作业时,它们会排队,并且在群集空闲之前不会启动.

默认情况下,所有设置.如何启用同时运行的多个作业？

Answer 1

Dataproc确实支持多个并发作业.但是,它承载多个作业的能力取决于具有托管Application Master(或作业将排队)或实际工作人员(或作业将花费很长时间)的可用容量的纱线.

较大作业将请求的容器数取决于分区数.使用默认设置,Dataproc工作人员将支持2个Mapper或Reducer任务.如果您正在处理100个文件,并且每个文件都是分区,则现在已分配整个群集容量.

你可以做一些事情: