AWS EMR 添加步骤:如何在 --jars 和 --driver-class-path 选项中添加来自 s3 的多个 jar?

Cod*_*ter 5 scala amazon-web-services amazon-emr apache-spark spark-submit

因此,我尝试Apache Spark在 AWS EMR 上cluster使用spark-submit. 如果我在类路径中只提供一个 jar,则它可以与使用--jar--driver-class-path选项的给定选项配合使用。我所需的所有依赖项 jar 都位于S3EMR 所需的存储桶中。为此,我在 EMR AWS 控制台上的 EMR 添加步骤选项中使用以下命令:

--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
Run Code Online (Sandbox Code Playgroud)

现在,我spark-submit optionsadd step. 但如果我想用同样的方式提供多个依赖的jar,就不会占用其他jar。我提供以下方式并尝试了各种选项,但找不到依赖的 jars:

 --jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher
Run Code Online (Sandbox Code Playgroud)

Rah*_*hul -2

您可以将 jar 文件添加到 Spark-defaults 中。如果 jar 列表中有多个条目,请使用 : 作为分隔符。

你应该使用:

--驱动程序类路径 s3://emrb/hadoop_jars/emrfs-hadoop- assembly-2.32.0.jar:s3://emrb/gson-2.8.4.jar