ksi*_*ndi 5 amazon-s3 amazon-web-services apache-spark pyspark apache-spark-2.0
作为一个步骤,在 EMR 5.1.0 上运行 PySpark 2 作业。即使在脚本完成后,将_SUCCESS文件写入 S3 并且 Spark UI 显示作业已完成,EMR 仍将步骤显示为“正在运行”。我已经等了一个多小时,看看 Spark 是否只是试图自我清理,但该步骤从未显示为“已完成”。日志中写的最后一件事是:
INFO MultipartUploadOutputStream: close closed:false s3://mybucket/some/path/_SUCCESS
INFO DefaultWriterContainer: Job job_201611181653_0000 committed.
INFO ContextCleaner: Cleaned accumulator 0
Run Code Online (Sandbox Code Playgroud)
Spark 1.6 没有这个问题。我已经尝试了很多不同的hadoop-aws和aws-java-sdk罐子无济于事。
我正在使用默认的 Spark 2.0 配置,所以我认为不会编写任何其他类似元数据的内容。此外,数据的大小似乎对这个问题没有影响。
如果您还没有关闭 Spark 上下文,则应该关闭它。
sc.stop()
Run Code Online (Sandbox Code Playgroud)
另外,如果您通过浏览器观看 Spark Web UI,则应该关闭它,因为它有时会保持 Spark 上下文处于活动状态。我记得在 Spark dev 邮件列表上看到过这个,但找不到它的 jira。
| 归档时间: |
|
| 查看次数: |
4100 次 |
| 最近记录: |