我在某处读到Hadoop内置支持压缩和解压缩但我猜它是关于mapper输出(通过设置一些属性)?
我想知道是否有任何特定的PIG加载/存储函数可用于读取压缩数据或以压缩方式输出数据?
PigStorage通过检查文件名来处理压缩输入:
org.apache.pig.bzip2r.Bzip2TextInputFormat
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat
- o.a.h.mapreduce.TextinputFormat
如果您安装了编解码器,这将扩展可以处理.gz和zippy文件输出通过一些属性处理:
output.compression.enabled
- 真假output.compression.codec
- 要使用的编解码器的类名(org.apache.hadoop.io.compress.GzipCodec
用于gzip)如果您对此感到满意,那么挖掘PigStorage.java可能会让您感兴趣
归档时间: |
|
查看次数: |
2653 次 |
最近记录: |