在Hadoop/PIG中,gzip数据的压缩/解压缩是否透明?

kee*_*kee 1 hadoop apache-pig

我在某处读到Hadoop内置支持压缩和解压缩但我猜它是关于mapper输出(通过设置一些属性)?

我想知道是否有任何特定的PIG加载/存储函数可用于读取压缩数据或以压缩方式输出数据?

Chr*_*ite 6

PigStorage通过检查文件名来处理压缩输入:

  • *.bz2/*.bz - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • 其他所有使用org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - o.a.h.mapreduce.TextinputFormat如果您安装了编解码器,这将扩展可以处理.gz和zippy文件

输出通过一些属性处理:

  • output.compression.enabled - 真假
  • output.compression.codec- 要使用的编解码器的类名(org.apache.hadoop.io.compress.GzipCodec用于gzip)

如果您对此感到满意,那么挖掘PigStorage.java可能会让您感兴趣