如何为spark-shell设置YARN队列？

Question

我正在Spark Shell中执行一些spark（scala）sql代码。我想知道我正在使用哪个队列，并且如果可能的话，我想知道我正在使用多少内存和执行程序，以及如何对其进行优化？

Answer 1

启动Spark Shell或spark-submit时，可以设置队列名称，执行程序数，执行程序内存，总内核数，每个执行程序的内核数，驱动程序内存等。

这是您可以如何指定参数的方法。

spark-shell --executor-memory 6G --executor-cores 5 --num-executors 20 --driver-memory 2G --queue $queue_name

您应该根据胖执行器或瘦执行器概念根据群集容量来计算这些参数。

如果仍要检查资源利用率，则可以检查资源管理器页面或SPARK Web UI页面