Hadoop gzip输入文件只使用一个映射器

Question

可能重复:
为什么hadoop不能拆分大文本文件然后使用gzip压缩拆分？

我发现当使用gzip压缩的输入文件时,Hadoop选择只分配一个map任务来处理我的map/reduce作业.

gzip文件超过1.4 GB,所以我希望许多映射器并行运行(就像使用非压缩文件时一样)

我有什么配置可以改进吗？

Answer 1

Gzip文件无法拆分,因此所有数据仅由一个地图处理.必须使用其他压缩文件可以拆分的压缩算法,然后数据将由多个映射处理.这是一篇很好的文章.(1)

编辑:这是另一篇关于Snappy(2)的文章,该文章来自Google.