zer*_*323 111

通常,这意味着已从缓存中提取数据,并且无需重新执行给定的阶段.它与您的DAG一致,表明下一阶段需要改组(reduceByKey).每当有混乱时,Spark会自动缓存生成的数据:

Shuffle还会在磁盘上生成大量中间文件.从Spark 1.3开始,这些文件将被保留,直到不再使用相应的RDD并进行垃圾回收.这样做是为了在重新计算谱系时不需要重新创建shuffle文件.

  • 很好的答案.如果你想在网页用户界面上找到关于"跳过"和"待定"阶段语义的更多信息,请查看https://github.com/apache/spark/pull/3009,首先介绍这些的拉取请求概念.如果您对跳过/挂起的阶段与作业级进度条的交互方式感到好奇,那么PR也是一个有趣的读物. (18认同)