相关疑难解决方法(0)

Spark中的gzip支持

对于大数据项目,我计划使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载.它可以在本地文件上运行,也可以在HDFS上运行.

但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示.实际上,处理.gz文件而不是解压缩文件会非常有效.

有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩？

java gzip scala mapreduce apache-spark

pti*_*obj

2019 03-29

42
推荐指数

1
解决办法

4万
查看次数

如何通过Spark打开/流式传输.zip文件？

我有zip文件,我想打开'通过'Spark.我可以打开.gzip文件没有问题,因为Hadoops本机编解码器支持,但无法使用.zip文件.

有没有一种简单的方法来读取Spark代码中的zip文件？我还搜索了要添加到CompressionCodecFactory的zip编解码器实现,但到目前为止还没有成功.

hadoop apache-spark

Jef*_*fLL

lucky-day

7
推荐指数

3
解决办法

3万
查看次数

如何在Apache Spark中读取包含多个文件的zip

我有一个包含多个文本文件的Zipped文件.我想读取每个文件并构建一个包含每个文件内容的RDD列表.

val test = sc.textFile("/Volumes/work/data/kaggle/dato/test/5.zip")

Run Code Online (Sandbox Code Playgroud)

将只是整个文件,但如何遍历zip的每个内容,然后使用Spark将其保存在RDD中.

我对Scala或Python很好.

Python中使用Spark的可能解决方案 -

archive = zipfile.ZipFile(archive_path, 'r')
file_paths = zipfile.ZipFile.namelist(archive)
for file_path in file_paths:
    urls = file_path.split("/")
    urlId = urls[-1].split('_')[0]

Run Code Online (Sandbox Code Playgroud)

scala apache-spark pyspark

Abh*_*ary

lucky-day

7
推荐指数

2
解决办法

2万
查看次数

Spark / Scala打开压缩的CSV文件

我是Spark和Scala的新手。我们有广告事件日志文件，格式为CSV，然后使用pkzip压缩。我已经看到了许多有关如何使用Java解压缩压缩文件的示例，但是如何使用Scala for Spark来执行此操作？最终，我们希望从每个传入文件中获取，提取数据并将其加载到Hbase目标表中。也许可以使用HadoopRDD做到这一点吗？此后，我们将介绍Spark流技术来监视这些文件。

谢谢，本

scala apache-spark

Ben*_*Ben

lucky-day

5
推荐指数

2
解决办法

5764
查看次数