我们如何在pyspark中指定maven依赖

Nee*_*nur 6 maven apache-spark pyspark

在启动 Spark-submit / pyspark 时,我们确实可以选择使用该--jars选项指定 jar 文件。我们如何在 pyspark.xml 中指定 Maven 依赖项?运行 pyspark 应用程序时,我们是否必须始终传递所有 jars,还是有更干净的方法?

Mar*_*etz 2

根据https://spark.apache.org/docs/latest/submitting-applications.html,有一个选项可以--packages以逗号分隔的 Maven 坐标列表的形式指定。

./bin/spark-submit --packages my:awesome:package
Run Code Online (Sandbox Code Playgroud)