如何判断我的火花工作是否正在进行?

Can*_*ic3 8 hadoop-yarn apache-spark pyspark

我有一个火花作业正在运行YARN,它似乎只是挂起而没有做任何计算.

这就是纱线在我做的时候所说的yarn application -status <APPLICATIOM ID>:

Application Report : 
Application-Id : applicationID
Application-Name : test app
Application-Type : SPARK
User : ec2-user
Queue : default
Start-Time : 1491005660004
Finish-Time : 0
Progress : 10%
State : RUNNING
Final-State : UNDEFINED
Tracking-URL : http://<ip>:4040
RPC Port : 0
AM Host : <host ip>
Aggregate Resource Allocation : 36343926 MB-seconds, 9818 vcore-seconds
Log Aggregation Status : NOT_START
Diagnostics : 
Run Code Online (Sandbox Code Playgroud)

并且,当我检查yarn application -list它说它是RUNNING.但我不确定我是否相信.当我去火花webUI时,我只看到一个阶段,整个几个小时我一直在运行它:

web UI

此外,当我点击"阶段"选项卡时,我看不到任何运行:

阶段标签

如何确保我的应用程序实际运行并且YARN不是骗我的?

我实际上更喜欢这样做而不是让我等着看这份工作是否正在运行.我怎么做?

San*_*ver 5

在 Spark 应用程序 UI 上

如果您单击链接:“Parquet at Nativexxxx”,它将显示运行阶段的详细信息。

在那个屏幕上会有一列“输入大小/记录”。如果您的工作正在取得进展,该列中显示的数字会发生变化。

图像显示了我想说的

它基本上描述了您的执行程序读取的记录数。