当我在YARN上运行spark时,如何在作业运行完毕后从spark web UI获取执行DAG?

gui*_*ion 11 hadoop-yarn apache-spark pyspark

我经常在运行时对我的火花作业的DAG进行分析.但是,为了看到DAG,在运行时必须坐下来观看应用程序是很烦人的.

所以,我试图用这个叫做的东西来看DAg spark history-server,我知道应该帮我看看过去的工作.我很容易访问端口18080,我可以看到历史服务器UI.

但是,它没有向我显示与spark程序执行相关的任何信息.我知道我的历史服务器正在运行,因为当我这样做时,sudo service --status-all我看到了

spark history-server is running [ OK ]

所以我已经尝试过这个问题的建议:这里.

我想这是因为我在YARN上运行spark,它一次只能使用一个资源管理器?也许?

那么,作业结束,我怎么看到火花执行DAG, *?更具体地说,当运行YARN作为我的资源管理器时?

Sha*_*ala 3

仅运行history-server不足以执行DAG先前的作业。您需要指定作业来存储所有先前作业的事件日志。

通过以下方式运行 Spark 历史服务器./sbin/start-history-server.sh

为 Spark 作业启用事件日志

spark.eventLog.enabled true
spark.eventLog.dir <path to event log(local or hdfs)>
spark.history.fs.logDirectory  <path to event log(local or hdfs)>
Run Code Online (Sandbox Code Playgroud)

将这些添加到spark-defaults.conf文件中