在 hive 表上设置压缩

Vik*_*ena 5 compression hive avro hiveql snappy

我有一个基于 avro 架构的配置单元表。该表是使用以下查询创建的

CREATE EXTERNAL TABLE datatbl PARTITIONED BY (date String, int time) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' WITH SERDEPROPERTIES ( 'avro.schema.url'='path to schema file on HDFS') STORED as INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat' LOCATION '<path on hdfs>'

到目前为止,我们一直通过设置以下属性向表中插入数据

hive> set hive.exec.compress.output=true; hive> set avro.output.codec=snappy;

但是,如果有人忘记设置上述两个属性,则无法实现压缩。我想知道是否有一种方法可以强制对表本身进行压缩,以便即使未设置上述两个属性,数据也始终会被压缩?