use*_*003 5 stage task apache-spark
在AWS集群上运行spark作业时,我相信我已正确更改了代码,以分发数据和我正在使用的算法的工作.但输出看起来像这样:
[Stage 3:> (0 + 2) / 1000]
[Stage 3:> (1 + 2) / 1000]
[Stage 3:> (2 + 2) / 1000]
[Stage 3:> (3 + 2) / 1000]
[Stage 3:> (4 + 2) / 1000]
[Stage 3:> (5 + 2) / 1000]
[Stage 3:> (6 + 2) / 1000]
[Stage 3:> (7 + 2) / 1000]
[Stage 3:> (8 + 2) / 1000]
[Stage 3:> (9 + 2) / 1000]
[Stage 3:> (10 + 2) / 1000]
[Stage 3:> (11 + 2) / 1000]
[Stage 3:> (12 + 2) / 1000]
[Stage 3:> (13 + 2) / 1000]
[Stage 3:> (14 + 2) / 1000]
[Stage 3:> (15 + 2) / 1000]
[Stage 3:> (16 + 2) / 1000]
Run Code Online (Sandbox Code Playgroud)
我是否正确将0 + 2/1000解释为只有一个双核处理器一次执行1000个任务中的一个?有5个节点(10个处理器)为什么我不能看到0 + 10/1000?
这看起来更像是我想要的输出:
[Stage 2:=======> (143 + 20) / 1000]
[Stage 2:=========> (188 + 20) / 1000]
[Stage 2:===========> (225 + 20) / 1000]
[Stage 2:==============> (277 + 20) / 1000]
[Stage 2:=================> (326 + 20) / 1000]
[Stage 2:==================> (354 + 20) / 1000]
[Stage 2:=====================> (405 + 20) / 1000]
[Stage 2:========================> (464 + 21) / 1000]
[Stage 2:===========================> (526 + 20) / 1000]
[Stage 2:===============================> (588 + 20) / 1000]
[Stage 2:=================================> (633 + 20) / 1000]
[Stage 2:====================================> (687 + 20) / 1000]
[Stage 2:=======================================> (752 + 20) / 1000]
[Stage 2:===========================================> (824 + 20) / 1000]
Run Code Online (Sandbox Code Playgroud)
在 AWS EMR 中,确保 --executor-cores 选项设置为您正在使用的节点数,如下所示:
| 归档时间: |
|
| 查看次数: |
2756 次 |
| 最近记录: |