Hadoop gzip输入文件只使用一个映射器

yos*_*osi 4 gzip hadoop mapreduce

可能重复:
为什么hadoop不能拆分大文本文件然后使用gzip压缩拆分?

我发现当使用gzip压缩的输入文件时,Hadoop选择只分配一个map任务来处理我的map/reduce作业.

gzip文件超过1.4 GB,所以我希望许多映射器并行运行(就像使用非压缩文件时一样)

我有什么配置可以改进吗?

Pra*_*ati 5

Gzip文件无法拆分,因此所有数据仅由一个地图处理.必须使用其他压缩文件可以拆分的压缩算法,然后数据将由多个映射处理.这是一篇很好的文章.(1)

编辑:这是另一篇关于Snappy(2)的文章,该文章来自Google.

(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2)http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/