AWS S3 - 没有 gz 压缩的 Athena

mar*_*n93 4 amazon-s3 amazon-athena

我正在 AWS Athena 中使用以下语句创建一个表:

CREATE TABLE table2
WITH 
(
  format='JSON',
  external_location='s3://bucket/path'
) AS
SELECT field1, field2, field3, field4, field5, field6
FROM table1
ORDER BY field1, field2
Run Code Online (Sandbox Code Playgroud)

但是,当我查看 external_location 时,我发现所有文件都被压缩为 gz 格式。是否可以关闭压缩?也就是说,只需将原始 JSON 写入 S3 存储桶即可。

The*_*heo 5

目前无法使用 Athena 的 CTAS 功能创建未压缩的文件。对于 ORC 和 Parquet,您可以选择压缩类型,但对于所有其他格式,无论您喜欢与否,都将使用 gzip。

有点讽刺的是,虽然您无法获得未压缩的 CTAS 输出,但也无法获得压缩的常规查询输出。


Dar*_*yte 5

自 2022 年 5 月起(我没有看到任何关于此的公告...),您可以禁用压缩。您需要write_compression在查询的 TBL_PROPERTIES/WITH 部分中指定:

CREATE TABLE new_table
WITH (write_compression = 'NONE', format = 'TEXTFILE')
AS SELECT ...
Run Code Online (Sandbox Code Playgroud)

每种格式的所有压缩(包括“无”)均可在此处找到: https: //docs.aws.amazon.com/athena/latest/ug/compression-formats.html