用于pyspark的SparkUI - 每个阶段的相应代码行?

Eda*_*ame 7 emr apache-spark pyspark

我在AWS集群上运行了一些pyspark程序.我正在通过Spark UI监控这项工作(见附件).但是,我注意到,与scala或Java spark程序不同,它显示每个Stage对应于哪一行代码,我找不到哪个Stage对应于pyspark代码中的哪一行代码.

有没有办法可以找出哪个Stage对应于pyspark代码的哪一行?

谢谢!

在此输入图像描述

Chr*_*ris 1

有没有办法找出哪个阶段对应于 pyspark 代码的哪一行?

是的。Spark UI 提供从 Python 代码中的 PySpark 操作调用的 Scala 方法。有了PySpark 代码库,您可以轻松识别调用 PySpark 方法。在您的示例中,cache是不言自明的,快速搜索javaToPython表明它是由 PySparkDataFrame.rdd方法调用的。