读取tar.gz归档中压缩的多个文件到Spark中

sep*_*tra 7 gzip scala apache-spark rdd

我正在尝试从压缩成tar的几个json文件创建Spark RDD.例如,我有3个文件

file1.json
file2.json
file3.json
Run Code Online (Sandbox Code Playgroud)

这些都包含在archive.tar.gz.

我想从json文件创建一个数据帧.问题是Spark没有正确读取json文件.使用sqlContext.read.json("archive.tar.gz")sc.textFile("archive.tar.gz")导致乱码/额外输出创建RDD .

有没有办法处理包含Spark中多个文件的gzip压缩文件?

UPDATE

使用回答中给出的方法从Spark中的压缩读取整个文本文件我能够运行,但这种方法似乎不适合大型tar.gz存档(> 200 mb压缩),因为应用程序扼流圈大型存档大小.由于我正在处理的一些档案在压缩后达到了2 GB的大小,我想知道是否有一些有效的方法来处理这个问题.

我试图避免提取档案然后合并文件,因为这将是耗时的.

sep*_*tra 7

从Spark中的压缩读取整个文本文件中给出了一个解决方案.使用提供的代码示例,我能够从压缩存档创建数据框,如下所示:

val jsonRDD = sc.binaryFiles("gzarchive/*").
               flatMapValues(x => extractFiles(x).toOption).
               mapValues(_.map(decode())

val df = sqlContext.read.json(jsonRDD.map(_._2).flatMap(x => x))
Run Code Online (Sandbox Code Playgroud)

此方法适用于相对较小的tar归档,但不适用于大型归档文件.

这个问题的一个更好的解决方案似乎是将tar档案转换为hadoop SequenceFiles,它们是可拆分的,因此可以在Spark中并行读取和处理(与tar档案相对).

请参阅:stuartsierra.com/2008/04/24/a-million-little-files