小编Gop_pal的帖子

Spark Shuffle - 工人如何知道从哪里提取数据

我试图理解Spark如何在引擎盖下改变依赖关系.因此我有两个问题:

在Spark中,执行者如何知道从其他执行器获取数据？
- 每个执行者在完成其地图侧任务后,是否将其状态和位置更新为某个中央实体(可能是驱动程序)并减少侧执行者首先联系驱动程序以获取每个执行程序的位置,然后直接从这些执行程序中取出？
在具有随机播放依赖性的作业中,只有在所有地图侧任务完成后,驱动程序计划才会加入(或其他任务与shuffle依赖关系)？
- 这是否意味着每个任务都会通知驱动程序其状态,驱动程序将及时协调其他相关任务.

8
推荐指数

1
解决办法

1269
查看次数

标签统计

apache-spark ×1