小编Gop*_*pal的帖子

Spark Shuffle - 工人如何知道从哪里提取数据

我试图理解Spark如何在引擎盖下改变依赖关系.因此我有两个问题:

  1. 在Spark中,执行者如何知道从其他执行器获取数据?

    • 每个执行者在完成其地图侧任务后,是否将其状态和位置更新为某个中央实体(可能是驱动程序)并减少侧执行者首先联系驱动程序以获取每个执行程序的位置,然后直接从这些执行程序中取出?
  2. 在具有随机播放依赖性的作业中,只有在所有地图侧任务完成后,驱动程序计划才会加入(或其他任务与shuffle依赖关系)?

    • 这是否意味着每个任务都会通知驱动程序其状态,驱动程序将及时协调其他相关任务.

apache-spark

8
推荐指数
1
解决办法
1269
查看次数

标签 统计

apache-spark ×1