小编Jav*_*ier的帖子

Spark 流作业中的任务之间长时间且一致的等待

我有一个在 Mesos 上运行的 Spark 流作业。它的所有批次都花费完全相同的时间，并且这个时间比预期的要长得多。这些作业从 kafka 提取数据，处理数据并将其插入 cassandra，然后再次返回到 kafka 到不同的主题。

每个批次（如下）有 3 个作业，其中 2 个从 kafka 拉取、处理并插入到 cassandra 中，另一个从 kafka 拉取、处理并推回到 kafka 中。

我检查了 Spark UI 中的批次，发现它们都花费相同的时间（4 秒），但深入研究，它们实际上每个处理时间不到一秒，但它们都有相同时间的间隙（大约 4 秒）。添加更多的执行器或更多的处理能力看起来不会产生什么影响。

Details of batch: Processing time = 12s & total delay = 1.2 s??

因此，我深入研究批次中的每个作业（即使它们进行不同的处理，它们都花费完全相同的时间 = 4 秒）：

工作 175 秒

工作 1753

工作 1754

他们都花了 4 秒来运行他们的一个阶段（从 kafka 读取的阶段）。现在我深入研究其中之一的阶段（它们都非常相似）：

阶段 2336 的详细信息

为什么要等这个？整个事情实际上只需要0.5秒就可以运行，它只是在等待。是在等待卡夫卡吗？

有人经历过类似的事情吗？我可能编码错误或配置错误？

编辑：

这是触发此行为的最少代码。这让我觉得这一定是某种设置。

object Test {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf(true)
    val streamingContext = new StreamingContext(sparkConf, Seconds(5))

    val kafkaParams = Map[String, String]( …

Run Code Online (Sandbox Code Playgroud)

apache-kafka mesos apache-spark spark-streaming

Jav*_*ier

2018 06-11

3
推荐指数

1
解决办法

2696
查看次数

标签统计

apache-kafka ×1

apache-spark ×1

mesos ×1

spark-streaming ×1

Spark 流作业中的任务之间长时间且一致的等待

标签 统计

小编Jav_ier的帖子

标签统计