Rag*_*tra 1 amazon-s3 amazon-emr pyspark
我正在运行一个 EMR 实例。它工作正常,但当我尝试从 Python Spark 脚本访问 S3 文件时,它突然开始出现以下错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o36.json.:
java.lang.RuntimeException:
java.lang.ClassNotFoundException:
Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
Run Code Online (Sandbox Code Playgroud)
我们如何解决这个问题?
提前致谢。
这是火花依赖的问题。我不得不在 park-defaults.conf 中添加 jars 配置。
spark.jars.packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.2
Run Code Online (Sandbox Code Playgroud)
请按照以下链接:https : //gist.github.com/eddies/f37d696567f15b33029277ee9084c4a0
| 归档时间: |
|
| 查看次数: |
3710 次 |
| 最近记录: |