小编Lau*_*Orr的帖子

如何读取压缩的bz2(bzip2)Wikipedia转储到流xml记录阅读器中,用于hadoop map reduce

我正在使用Hadoop Map Reduce来研究维基百科数据转储(以bz2格式压缩).由于这些转储太大(5T),我无法将xml数据解压缩为HDFS,只使用hadoop提供的StreamXmlRecordReader.Hadoop确实支持解压缩bz2文件,但它会任意拆分页面并将它们发送到映射器.因为这是xml,我们需要将分割作为标记.反正有没有使用内置的bz2解压缩和hadoop提供的流xml记录阅读器？

xml streaming hadoop wikipedia bzip2

Lau*_*Orr

2011 08-06

6
推荐指数

2
解决办法

3995
查看次数