如何为spark-shell设置YARN队列?

use*_*344 3 apache-spark apache-spark-sql

我正在Spark Shell中执行一些spark(scala)sql代码。我想知道我正在使用哪个队列,并且如果可能的话,我想知道我正在使用多少内存和执行程序,以及如何对其进行优化?

Roh*_*ala 6

启动Spark Shell或spark-submit时,可以设置队列名称,执行程序数,执行程序内存,总内核数,每个执行程序的内核数,驱动程序内存等。

这是您可以如何指定参数的方法。

spark-shell --executor-memory 6G --executor-cores 5 --num-executors 20 --driver-memory 2G --queue $queue_name
Run Code Online (Sandbox Code Playgroud)

您应该根据胖执行器或瘦执行器概念根据群集容量来计算这些参数。

如果仍要检查资源利用率,则可以检查资源管理器页面或SPARK Web UI页面