小编Lau*_*Orr的帖子

如何读取压缩的bz2(bzip2)Wikipedia转储到流xml记录阅读器中,用于hadoop map reduce

我正在使用Hadoop Map Reduce来研究维基百科数据转储(以bz2格式压缩).由于这些转储太大(5T),我无法将xml数据解压缩为HDFS,只使用hadoop提供的StreamXmlRecordReader.Hadoop确实支持解压缩bz2文件,但它会任意拆分页面并将它们发送到映射器.因为这是xml,我们需要将分割作为标记.反正有没有使用内置的bz2解压缩和hadoop提供的流xml记录阅读器?

xml streaming hadoop wikipedia bzip2

6
推荐指数
2
解决办法
3995
查看次数

标签 统计

bzip2 ×1

hadoop ×1

streaming ×1

wikipedia ×1

xml ×1