blu*_*sky 5 scala apache-spark
对于正在运行的Spark作业,这里是URL的UI详细信息的一部分: http:// localhost:4040/stages/stage /?id = 1&attempt = 0

http://spark.apache.org/docs/1.2.0/monitoring.html上的文档没有详细说明这些参数.列"输入","写入时间"和"随机写入"表示什么?
从这个截图中可以看出,这4个任务已经运行了1.3分钟,我试图发现它是否存在瓶颈然后发生了什么.
Spark配置为使用4个核心,我想这就是为什么UI中显示4个任务,每个任务是在单个核心上运行?
什么是"Shuffle Write"大小?
在我的控制台输出上有许多日志消息:
15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/ data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分: file:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入拆分:文件:/ c:/data/example.txt:103306 + 103306 ... ..................
这些文件的结果是分成多个较小的大小,每个大小为100.9KB的"输入"(在Spark UI屏幕截图中指定)是否映射到其中一个片段?
| 归档时间: |
|
| 查看次数: |
4659 次 |
| 最近记录: |