Hadoop检查文件扩展名以检测压缩文件.Hadoop支持的压缩类型有:gzip,bzip2和LZO.您无需采取任何其他操作来使用这些类型的压缩来提取文件; Hadoop为您处理它.
所以你要做的就是像编写文本文件一样编写逻辑,然后传入包含.gz文件的目录作为输入.
但是gzip文件的问题在于它们不是可拆分的,假设你有每个5GB的gzip文件,那么每个映射器将处理整个5GB文件,而不是使用默认的块大小.
| 归档时间: |
|
| 查看次数: |
6717 次 |
| 最近记录: |