Jia*_*Lin 51
首先,我们应该了解SequenceFile尝试解决的问题,然后SequenceFile如何帮助解决问题.
映射任务通常一次处理一个输入块(使用默认的FileInputFormat).
文件数越多,Map任务所需的数量就越多,作业时间就会慢得多.
这两种情况需要不同的解决方案
HAR文件
SequenceFile
例如,假设有10,000个100KB文件,那么我们可以编写一个程序将它们放入如下所示的单个SequenceFile中,您可以使用filename作为键,将内容作为值.
一些好处:
支持的压缩,文件结构取决于压缩类型.
记录压缩:压缩每个记录,因为它已添加到文件中. record_compress_seq http://img.blog.csdn.net/20151213182753789
Block-Compressed 这里写图片描述http://img.blog.csdn.net/20151213183017236
| 归档时间: |
|
| 查看次数: |
12502 次 |
| 最近记录: |