列出 pyspark 中加载的所有其他 jar

Eli*_*yev 5 apache-spark pyspark

我想查看我的 Spark 上下文正在使用的罐子。我在 Scala 中找到了代码:

$ spark-shell --jars --master=spark://datasci:7077 --jars /opt/jars/xgboost4j-spark-0.7-jar-with-dependencies.jar --packages elsevierlabs-os:spark-xml-utils:1.6.0

scala> spark.sparkContext.listJars.foreach(println)
spark://datasci:42661/jars/net.sf.saxon_Saxon-HE-9.6.0-7.jar
spark://datasci:42661/jars/elsevierlabs-os_spark-xml-utils-1.6.0.jar
spark://datasci:42661/jars/org.apache.commons_commons-lang3-3.4.jar
spark://datasci:42661/jars/commons-logging_commons-logging-1.2.jar
spark://datasci:42661/jars/xgboost4j-spark-0.7-jar-with-dependencies.jar
spark://datasci:42661/jars/commons-io_commons-io-2.4.jar
Run Code Online (Sandbox Code Playgroud)

来源:列出 Spark 中加载的所有其他 Jar

但我找不到如何在 PySpark 中做到这一点。有什么建议?

谢谢

nev*_*ves 7

我确实用这个命令得到了额外的罐子:

print(spark.sparkContext._jsc.sc().listJars())
Run Code Online (Sandbox Code Playgroud)


job*_*ers 5

sparkContext._jsc.sc().listJars()
Run Code Online (Sandbox Code Playgroud)

_jsc是java Spark上下文

  • 我如何打开这个对象的包装?listJars() 为我返回的所有内容都是“JavaObject id=o30”?它似乎不是可迭代的,或者有任何可以通过内省看到的方法? (3认同)
  • @AdamLuchjenbroers当你“打印”对象时,它会显示jar文件名:“print(spark.sparkContext._jsc.sc().listJars())” (3认同)