什么是hadoop中的序列文件？

Question

我是Map-reduce的新手,我想了解什么是序列文件数据输入？我在Hadoop书中学习,但我很难理解.

Answer 1

首先,我们应该了解SequenceFile尝试解决的问题,然后SequenceFile如何帮助解决问题.

在HDFS中

这两种情况需要不同的解决方案

HAR文件

SequenceFile

SequenceFile的概念是将每个小文件放到一个更大的单个文件中.
例如,假设有10,000个100KB文件,那么我们可以编写一个程序将它们放入如下所示的单个SequenceFile中,您可以使用filename作为键,将内容作为值.

SequenceFile文件布局http://img.blog.csdn.net/20151213123516719
一些好处:
1. NameNode上需要较少的内存.继续10,000个100KB文件示例,
  - 在使用SequenceFile之前,10,000个对象在NameNode中占用大约4.5MB的RAM.
  - 在使用SequenceFile,1GB SequenceFile和8个HDFS块之后,这些对象在NameNode中占用大约3.6KB的RAM.
2. SequenceFile是可拆分的,因此适用于MapReduce.
3. SequenceFile支持压缩.
支持的压缩,文件结构取决于压缩类型.
1. 未压缩
2. 记录压缩:压缩每个记录,因为它已添加到文件中. record_compress_seq http://img.blog.csdn.net/20151213182753789
3. Block-Compressed 这里写图片描述http://img.blog.csdn.net/20151213183017236
  - 等待数据达到块大小以进行压缩.
  - 块压缩提供比Record压缩更好的压缩率.
  - 使用SequenceFile时,块压缩通常是首选选项.
  - 这里的阻塞与HDFS或文件系统块无关.