对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载.它可以在本地文件上运行,也可以在HDFS上运行.
但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示.实际上,处理.gz文件而不是解压缩文件会非常有效.
有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩?
我有zip文件,我想打开'通过'Spark.我可以打开.gzip文件没有问题,因为Hadoops本机编解码器支持,但无法使用.zip文件.
有没有一种简单的方法来读取Spark代码中的zip文件?我还搜索了要添加到CompressionCodecFactory的zip编解码器实现,但到目前为止还没有成功.
我有一个包含多个文本文件的Zipped文件.我想读取每个文件并构建一个包含每个文件内容的RDD列表.
val test = sc.textFile("/Volumes/work/data/kaggle/dato/test/5.zip")
Run Code Online (Sandbox Code Playgroud)
将只是整个文件,但如何遍历zip的每个内容,然后使用Spark将其保存在RDD中.
我对Scala或Python很好.
Python中使用Spark的可能解决方案 -
archive = zipfile.ZipFile(archive_path, 'r')
file_paths = zipfile.ZipFile.namelist(archive)
for file_path in file_paths:
urls = file_path.split("/")
urlId = urls[-1].split('_')[0]
Run Code Online (Sandbox Code Playgroud) 我是Spark和Scala的新手。我们有广告事件日志文件,格式为CSV,然后使用pkzip压缩。我已经看到了许多有关如何使用Java解压缩压缩文件的示例,但是如何使用Scala for Spark来执行此操作?最终,我们希望从每个传入文件中获取,提取数据并将其加载到Hbase目标表中。也许可以使用HadoopRDD做到这一点吗?此后,我们将介绍Spark流技术来监视这些文件。
谢谢,本