有没有办法设置 Spark 执行器进程的良好设置?

Tha*_*Guy 6 apache-spark

我有一组机器,必须与其他进程共享。可以说我不是一个好人,并且希望我的 Spark 执行程序进程比其他人的进程具有更高的优先级。我该如何设置呢?

我使用的是 StandAlone 模式,v2.01,在 RHEL7 上运行

Pra*_*mal 0

将所有资源分配给 Spark 应用程序,留下操作系统运行所需的最少资源。

一个简单的场景: 想象一个有 6 个节点运行 NodeManager(Yarn 模式)的集群,每个节点配备 16 个核心和 64GB 内存。NodeManager 容量yarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcores可能应分别设置为 63 * 1024 = 64512(兆字节)和 15。我们避免将 100% 的资源分配给 YARN 容器,因为节点需要一些资源来运行操作系统和 Hadoop 守护进程。在这种情况下,我们为这些系统进程留下一个千兆字节和一个核心。