序列文件优于hdfs文本文件的优点

hrk*_*shn 21 hadoop hdfs sequencefile

Hadoop序列文件优于HDFS平面文件(文本)的优势是什么?Sequence文件以什么方式有效?

可以将小文件组合并写入序列文件,但也可以对HDFS文本文件执行相同的操作.需要知道这两种方式的区别.我已经谷歌搜索了一段时间,如果我明白这个会有帮助吗?

Raz*_*van 25

  1. 序列文件适用于您要存储密钥及其相应值的情况.对于文本文件,您可以这样做,但您必须解析每一行.
  2. 可以压缩并且仍然可以拆分,这意味着更好的工作量.除非使用可拆分压缩格式,否则无法拆分压缩文本文件.
  3. 可以作为二进制文件接近=>更高的存储效率.在文本文件中,double将是多个chars =>大存储开销.