yos*_*osi 4 gzip hadoop mapreduce
我发现当使用gzip压缩的输入文件时,Hadoop选择只分配一个map任务来处理我的map/reduce作业.
gzip文件超过1.4 GB,所以我希望许多映射器并行运行(就像使用非压缩文件时一样)
我有什么配置可以改进吗?
Gzip文件无法拆分,因此所有数据仅由一个地图处理.必须使用其他压缩文件可以拆分的压缩算法,然后数据将由多个映射处理.这是一篇很好的文章.(1)
编辑:这是另一篇关于Snappy(2)的文章,该文章来自Google.
(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
(2)http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/
| 归档时间: |
|
| 查看次数: |
5292 次 |
| 最近记录: |