Cod*_*ter 5 scala amazon-web-services amazon-emr apache-spark spark-submit
因此,我尝试Apache Spark
在 AWS EMR 上cluster
使用spark-submit
. 如果我在类路径中只提供一个 jar,则它可以与使用--jar
和--driver-class-path
选项的给定选项配合使用。我所需的所有依赖项 jar 都位于S3
EMR 所需的存储桶中。为此,我在 EMR AWS 控制台上的 EMR 添加步骤选项中使用以下命令:
--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
Run Code Online (Sandbox Code Playgroud)
现在,我spark-submit options
在add step
. 但如果我想用同样的方式提供多个依赖的jar,就不会占用其他jar。我提供以下方式并尝试了各种选项,但找不到依赖的 jars:
--jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher
Run Code Online (Sandbox Code Playgroud)
Rah*_*hul -2
您可以将 jar 文件添加到 Spark-defaults 中。如果 jar 列表中有多个条目,请使用 : 作为分隔符。
你应该使用:
--驱动程序类路径 s3://emrb/hadoop_jars/emrfs-hadoop- assembly-2.32.0.jar:s3://emrb/gson-2.8.4.jar
归档时间: |
|
查看次数: |
2390 次 |
最近记录: |