Jac*_*ack 5 apache-spark apache-spark-standalone
例如,我的 Spark 集群有 100 个节点(工作人员),当我运行一项作业时,我只想让它在大约 10 个特定节点上运行,我应该如何实现这一点。顺便说一句,我正在使用 Spark 独立模块。
为什么我需要上述要求:
One of my Spark job needs to access NFS, but there are only 10 nodes were
permitted to access NFS, so if the job was distributed on each Worker nodes(100 nodes),
then access deny exception would happen and the job would failed.
Run Code Online (Sandbox Code Playgroud)
小智 3
Spark 工作线程是由数据局部性“选择”的。这意味着数据所在节点上的唯一工作人员将工作。因此,实现此目的的一种方法就是仅将文件保存在这些节点上。在独立模式下没有直接选择特定节点的方法。此外,这意味着该作业始终需要通过在节点之间移动大量数据来开始,这效率不高。
归档时间: |
|
查看次数: |
4569 次 |
最近记录: |