我是Spark的新手,我正试图了解终端上各阶段的日志输出.我正在使用本地计算机上的一个非常大的数据集,在操作过程中,我会看到类似的内容:
[Stage: 4 ==> (10 + 4) / 200]
Run Code Online (Sandbox Code Playgroud)
我知道阶段是RDD发生的所有操作,但最后的数字呢?他们代表任务吗?
(10 + 4) / 200]
Run Code Online (Sandbox Code Playgroud)
10 完成的任务数量?4 运行的并发任务数(即我机器上的核心数?)200 这个阶段的任务总数?它被称为控制台进度条。对于上述阶段,数字的含义如下,
[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]
Run Code Online (Sandbox Code Playgroud)
希望这会有所帮助,干杯。
| 归档时间: |
|
| 查看次数: |
884 次 |
| 最近记录: |