在报告最终状态之前调用“关闭挂钩”的 Spark 问题(已关闭)

Far*_*ini 6 shutdown-hook hadoop-yarn apache-spark hadoop2 pyspark

我正在尝试在工作的 hadoop 集群上运行 spark。当我使用较小的数据集运行 python 作业时,一切似乎都正常。但是,当我使用更大的数据集时,任务失败并且在 hadoop 资源管理器中我得到了诊断信息:

在报告最终状态之前调用关闭挂钩。

我用来运行作业的命令是:

spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null  project-spark.py
Run Code Online (Sandbox Code Playgroud)

它只是生成一些数据并在生成的数据上运行 Spark 的 KMeans 算法的测试代码。

任何想法我应该做什么?任何帮助是极大的赞赏...

此外,我在由 4 个工作人员组成的 Hadoop v2.6.0 集群上使用 Spark v2.0.0,并使用 Anaconda2 v4.1.1

____更新

正如@rakesh.rakshit 建议我使用参数运行作业--master yarn-client并监控任务。我发现正如@ShuaiYuan 所建议的那样,我实际上有一个内存密集型部分不是通过导致问题的 Spark 函数完成的。

此外,似乎在 Spark 1.4.0 之外,SPARK_HOME由于此问题已解决,因此不需要设置变量。