是否有一个输入类来处理基于Hadoop中树结构的[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是打破部分.
例如,XML文件将是:
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
Run Code Online (Sandbox Code Playgroud)
我将每个部分定义为:/ root/parent.
我要问的是:Hadoop是否已经包含了一个记录输入阅读器来执行此操作?
我认为UMD 的 Cloud9 项目可能会在这方面帮助您。
该库提供了一个可能有用的XMLInputFormat 类。
同样令人感兴趣的是 Cloud9 文档中的此页面,它介绍了如何在 MapReduce 中处理Wikipedia 的 XML 转储。
| 归档时间: |
|
| 查看次数: |
1979 次 |
| 最近记录: |