未找到 AWS EMR s3a 文件系统

Rag*_*tra 1 amazon-s3 amazon-emr pyspark

我正在运行一个 EMR 实例。它工作正常,但当我尝试从 Python Spark 脚本访问 S3 文件时,它突然开始出现以下错误:

py4j.protocol.Py4JJavaError: An error occurred while calling o36.json.: 
   java.lang.RuntimeException: 
     java.lang.ClassNotFoundException: 
       Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
Run Code Online (Sandbox Code Playgroud)

我们如何解决这个问题?

提前致谢。

Rag*_*tra 5

这是火花依赖的问题。我不得不在 park-defaults.conf 中添加 jars 配置。

spark.jars.packages                com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.2
Run Code Online (Sandbox Code Playgroud)

请按照以下链接:https : //gist.github.com/eddies/f37d696567f15b33029277ee9084c4a0