我是 Spark 的新手,手头有一项有趣的任务,我必须从 S3 读取一堆文件,其中包含一些 xml 内容。
这些文件已压缩 (Gzip),但没有该扩展名。
我在这里阅读了一些关于此的问题,人们建议在 Spark 中扩展默认编解码器并强制使用不同的扩展名。
但就我而言,没有扩展名,文件以一些 16 位 UUID 格式命名,例如2c7358ca472ad91057da84adfba.
2c7358ca472ad91057da84adfba
gzip apache-spark
apache-spark ×1
gzip ×1