将大型XML文件拆分为Hadoop的可管理部分

Question

是否有一个输入类来处理基于Hadoop中树结构的[多个]大型XML文件？我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是打破部分.

例如,XML文件将是:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我将每个部分定义为:/ root/parent.

我要问的是:Hadoop是否已经包含了一个记录输入阅读器来执行此操作？

Answer 1

我认为UMD 的 Cloud9 项目可能会在这方面帮助您。

该库提供了一个可能有用的XMLInputFormat 类。

同样令人感兴趣的是 Cloud9 文档中的此页面，它介绍了如何在 MapReduce 中处理Wikipedia 的 XML 转储。