使用部署模式群集的Apache Spark任务中的大调度程序延迟

Vad*_* VM 6 scheduler cluster-computing apache-spark

使用spark-submit命令--master yarn --deploy-mode cluster会导致更大的调度程序延迟而不是使用--master yarn --deploy-mode client.

屏幕截图:任务性能结果

这主要涉及collect在RDD上调用操作的作业.

client模式下启动的火花应用程序大约需要3到4分钟,而cluster模式则需要6到7分钟.阶段中每个任务的大小小于100 KB.Cluster有8个数据节点,运行Cloudera Manager 5.9.0

Vad*_* VM 1

针对这种特殊情况的解决方案。该问题是由集群基础设施中的以太网电缆损坏引起的。更换后时间大大缩短。