小编g.c*_*ian的帖子

如何在 Spark 中读取没有扩展名的压缩(gzip)文件

我是 Spark 的新手,手头有一项有趣的任务,我必须从 S3 读取一堆文件,其中包含一些 xml 内容。

这些文件已压缩 (Gzip),但没有该扩展名。

我在这里阅读了一些关于此的问题,人们建议在 Spark 中扩展默认编解码器并强制使用不同的扩展名。

但就我而言,没有扩展名,文件以一些 16 位 UUID 格式命名,例如2c7358ca472ad91057da84adfba.

gzip apache-spark

6
推荐指数
1
解决办法
999
查看次数

标签 统计

apache-spark ×1

gzip ×1