在报告最终状态之前调用“关闭挂钩”的 Spark 问题（已关闭）

Far*_*ini 6 shutdown-hook hadoop-yarn apache-spark hadoop2 pyspark

我正在尝试在工作的 hadoop 集群上运行 spark。当我使用较小的数据集运行 python 作业时，一切似乎都正常。但是，当我使用更大的数据集时，任务失败并且在 hadoop 资源管理器中我得到了诊断信息：

在报告最终状态之前调用关闭挂钩。

我用来运行作业的命令是：

spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null  project-spark.py

Run Code Online (Sandbox Code Playgroud)

它只是生成一些数据并在生成的数据上运行 Spark 的 KMeans 算法的测试代码。

任何想法我应该做什么？任何帮助是极大的赞赏...

此外，我在由 4 个工作人员组成的 Hadoop v2.6.0 集群上使用 Spark v2.0.0，并使用 Anaconda2 v4.1.1

____更新

正如@rakesh.rakshit 建议我使用参数运行作业--master yarn-client并监控任务。我发现正如@ShuaiYuan 所建议的那样，我实际上有一个内存密集型部分不是通过导致问题的 Spark 函数完成的。

此外，似乎在 Spark 1.4.0 之外，SPARK_HOME由于此问题已解决，因此不需要设置变量。

归档时间：	9 年，4 月前
查看次数：	6724 次
最近记录：	9 年，4 月前