相关疑难解决方法(0)

Spark中的gzip支持

对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载.它可以在本地文件上运行,也可以在HDFS上运行.

但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示.实际上,处理.gz文件而不是解压缩文件会非常有效.

有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩?

java gzip scala mapreduce apache-spark

42
推荐指数
1
解决办法
4万
查看次数

如何通过Spark打开/流式传输.zip文件?

我有zip文件,我想打开'通过'Spark.我可以打开.gzip文件没有问题,因为Hadoops本机编解码器支持,但无法使用.zip文件.

有没有一种简单的方法来读取Spark代码中的zip文件?我还搜索了要添加到CompressionCodecFactory的zip编解码器实现,但到目前为止还没有成功.

hadoop apache-spark

7
推荐指数
3
解决办法
3万
查看次数

如何在Apache Spark中读取包含多个文件的zip

我有一个包含多个文本文件的Zipped文件.我想读取每个文件并构建一个包含每个文件内容的RDD列表.

val test = sc.textFile("/Volumes/work/data/kaggle/dato/test/5.zip")
Run Code Online (Sandbox Code Playgroud)

将只是整个文件,但如何遍历zip的每个内容,然后使用Spark将其保存在RDD中.

我对Scala或Python很好.

Python中使用Spark的可能解决方案 -

archive = zipfile.ZipFile(archive_path, 'r')
file_paths = zipfile.ZipFile.namelist(archive)
for file_path in file_paths:
    urls = file_path.split("/")
    urlId = urls[-1].split('_')[0]
Run Code Online (Sandbox Code Playgroud)

scala apache-spark pyspark

7
推荐指数
2
解决办法
2万
查看次数

Spark / Scala打开压缩的CSV文件

我是Spark和Scala的新手。我们有广告事件日志文件,格式为CSV,然后使用pkzip压缩。我已经看到了许多有关如何使用Java解压缩压缩文件的示例,但是如何使用Scala for Spark来执行此操作?最终,我们希望从每个传入文件中获取,提取数据并将其加载到Hbase目标表中。也许可以使用HadoopRDD做到这一点吗?此后,我们将介绍Spark流技术来监视这些文件。

谢谢,本

scala apache-spark

5
推荐指数
2
解决办法
5764
查看次数

标签 统计

apache-spark ×4

scala ×3

gzip ×1

hadoop ×1

java ×1

mapreduce ×1

pyspark ×1