火花流的调度延迟突然增加作业不改变其他参数

kal*_*thy 5 apache-spark spark-streaming

我有一个火花流工作在生产中运行1秒批次.我使用CDH 5.5 Spark 1.5.我们使用Kafka Create Directstream.我们启用了背压.我们不想起诉动态分配所以用固定数量的执行者执行的工作.

下面的图像我可以看到这些是从13.50的调度延迟突然增加但在同一时间我没有在处理时间看到任何dealy.

  1. 在处理时间相同的情况下,增加调度时间的可能原因是什么.
  2. 群集中的其他作业负载是否会影响当前的流式传输作业.根据我的理解,不应该是这种情况,因为流式传输的执行程序是预先分配的并且已经在运行

有什么想法吗?

在此输入图像描述

The*_*0s3 0

乍一看这确实是一个奇怪的问题,但让我们先来说说这一点Does other job loads in the cluster effect the current streaming job。答案是,如果另一个进程开始在同一集群上运行,CPU 共享将会受到影响,并可能导致争用,此时您会看到等待。您是否有机会在容器中运行火花?由于我不知道您如何设置集群,因此也很难完全理解您的问题。