Cod*_*ter 5 scala amazon-web-services amazon-emr apache-spark spark-submit
因此,我尝试Apache Spark在 AWS EMR 上cluster使用spark-submit. 如果我在类路径中只提供一个 jar,则它可以与使用--jar和--driver-class-path选项的给定选项配合使用。我所需的所有依赖项 jar 都位于S3EMR 所需的存储桶中。为此,我在 EMR AWS 控制台上的 EMR 添加步骤选项中使用以下命令:
--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
Run Code Online (Sandbox Code Playgroud)
现在,我spark-submit options在add step. 但如果我想用同样的方式提供多个依赖的jar,就不会占用其他jar。我提供以下方式并尝试了各种选项,但找不到依赖的 jars:
--jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher
Run Code Online (Sandbox Code Playgroud)
Rah*_*hul -2
您可以将 jar 文件添加到 Spark-defaults 中。如果 jar 列表中有多个条目,请使用 : 作为分隔符。
你应该使用:
--驱动程序类路径 s3://emrb/hadoop_jars/emrfs-hadoop- assembly-2.32.0.jar:s3://emrb/gson-2.8.4.jar
| 归档时间: |
|
| 查看次数: |
2390 次 |
| 最近记录: |