小编g.c_ian的帖子

如何在 Spark 中读取没有扩展名的压缩（gzip）文件

我是 Spark 的新手，手头有一项有趣的任务，我必须从 S3 读取一堆文件，其中包含一些 xml 内容。

这些文件已压缩 (Gzip)，但没有该扩展名。

我在这里阅读了一些关于此的问题，人们建议在 Spark 中扩展默认编解码器并强制使用不同的扩展名。

但就我而言，没有扩展名，文件以一些 16 位 UUID 格式命名，例如2c7358ca472ad91057da84adfba.

gzip apache-spark

6
推荐指数

1
解决办法

999
查看次数

标签统计

apache-spark ×1

gzip ×1