Apache Spark调度程序如何将文件拆分为任务？

Question

在2014年的spark-summit中，Aaron在他的幻灯片（第17页）中演讲了“更深入的了解Spark内部原理”，展示了将一个阶段分为以下4个任务：
在此处输入图片说明

在这里，我想了解有关如何将阶段拆分为任务的三件事？

非常感谢，我对如何将阶段划分为任务感到困惑。

Answer 1

您可以将整个进程的分区（分割）数量配置为作业的第二个参数，例如，如果我们需要 3 个分区，则可以进行并行化：

a = sc.parallelize(myCollection, 3)

Spark 会将工作划分为相对均匀的大小 (*) 。大文件将被相应地分解 - 您可以通过以下方式查看实际大小：

rdd.partitions.size

所以不，你不会最终导致单个 Worker 长时间处理单个文件。

(*) 如果您的文件非常小，则可能会更改此处理。但无论如何，大文件都会遵循这种模式。