如何获得临时工作来使用Google Cloud DataProc集群上的所有可用资源?

Cam*_*Cam 4 apache-spark google-cloud-platform google-cloud-dataproc

例如,我目前有一个由一个主服务器和4个工作器组成的DataProc集群,每台计算机具有8个vCPU和30GB内存。

每当我向集群提交作业时,集群最多会提交总共11GB的内存,并且仅委派2个工作程序节点来完成工作,并且在那些节点上仅使用2个vCPU资源。这样一来,只需几分钟即可完成的工作大约需要一个小时。

我尝试spark-defaults.conf在主节点上编辑文件,并尝试spark-submit使用参数运行命令,--executor-cores 4 --executor-memory 20g --num-executors 4但都没有任何效果。

这些集群只会被旋转以执行单个任务,然后被拆除,因此不需要为任何其他作业保留资源。

Cam*_*Cam 5

我设法通过将调度程序更改为FIFO而不是来解决我的问题,FAIRcreate命令末尾使用以下命令:

--properties spark:spark.scheduler.mode=FIFO