Pyspark - 从 s3 读取 zip 文件到 RDD

Den*_*ver 5 python amazon-s3 apache-spark rdd pyspark

我正在尝试从 s3 解压缩文件(.zip),
我尝试了以下方法

config_dict = {"fs.s3n.awsAccessKeyId":AWS_KEY,
               "fs.s3n.awsSecretAccessKey":AWS_SECRET}
print filename
rdd = sc.hadoopFile(filename,
                    'org.apache.hadoop.mapred.TextInputFormat',
                    'org.apache.hadoop.io.Text',
                    'org.apache.hadoop.io.LongWritable',
                    conf=config_dict) 
Run Code Online (Sandbox Code Playgroud)

这导致异常

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.hadoopFile.
: java.io.IOException: No FileSystem for scheme: s3n
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
    at org.apache...
Run Code Online (Sandbox Code Playgroud)

我也试过使用Boto连接

aws_connection = S3Connection(AWS_KEY, AWS_SECRET)
bucket = aws_connection.get_bucket('myBucket')
Run Code Online (Sandbox Code Playgroud)

并使用 GZIP 解压缩:

ip = gzip.GzipFile(fileobj=(StringIO(key.get_contents_as_string()))) 
myrdd = sc.textfile(ip.read())
Run Code Online (Sandbox Code Playgroud)

这没有给我想要的结果。

如果我将相同的 zip 文件从本地机器提供给我的 spark 程序,如下所示,内容将被正确读取

myrdd =  sc.textfile(<my zipped file>)
Run Code Online (Sandbox Code Playgroud)

有人能给我一个关于如何将压缩文件从 s3 读取到 spark RDD 的想法。

提前致谢