完成写入 S3 后，EMR 上的 Spark 步骤只是挂起为“正在运行”

Question

完成写入 S3 后，EMR 上的 Spark 步骤只是挂起为“正在运行”

ksi*_*ndi 5 amazon-s3 amazon-web-services apache-spark pyspark apache-spark-2.0

作为一个步骤，在 EMR 5.1.0 上运行 PySpark 2 作业。即使在脚本完成后，将_SUCCESS文件写入 S3 并且 Spark UI 显示作业已完成，EMR 仍将步骤显示为“正在运行”。我已经等了一个多小时，看看 Spark 是否只是试图自我清理，但该步骤从未显示为“已完成”。日志中写的最后一件事是：

INFO MultipartUploadOutputStream: close closed:false s3://mybucket/some/path/_SUCCESS
INFO DefaultWriterContainer: Job job_201611181653_0000 committed.
INFO ContextCleaner: Cleaned accumulator 0

Run Code Online (Sandbox Code Playgroud)

Spark 1.6 没有这个问题。我已经尝试了很多不同的hadoop-aws和aws-java-sdk罐子无济于事。

我正在使用默认的 Spark 2.0 配置，所以我认为不会编写任何其他类似元数据的内容。此外，数据的大小似乎对这个问题没有影响。

Answer 1

J M*_*rer 4

如果您还没有关闭 Spark 上下文，则应该关闭它。

sc.stop()

Run Code Online (Sandbox Code Playgroud)

另外，如果您通过浏览器观看 Spark Web UI，则应该关闭它，因为它有时会保持 Spark 上下文处于活动状态。我记得在 Spark dev 邮件列表上看到过这个，但找不到它的 jira。

归档时间：	9 年，5 月前
查看次数：	4100 次
最近记录：	8 年，3 月前