如何动态增加在Yarn上运行的Spark中的活动任务

Alc*_*ist 4 hadoop-yarn apache-spark spark-streaming

在此输入图像描述我正在运行一个火花流式传输过程,我得到了一批6000个事件.但是当我查看执行程序时,只有一个活动任务正在运行.我尝试了动态分配以及设置执行程序的数量等.即使我有15个执行程序,一次只运行一个活动任务.任何人都可以指导我在这里做错了什么.

Paw*_*nko 6

你好像只有一个分区DStream.您应该尝试显式重新分区输入流:

val input: DStream[...] = ...
val partitionedInput = input.repartition(numPartitions = 16)
Run Code Online (Sandbox Code Playgroud)

这样,您的输入中将有16个分区DStream,并且每个分区都可以在单独的任务中处理(并且每个任务都可以在单独的执行程序上执行)