使用Java拆分1GB Xml文件

use*_*009 12 java xml

我有一个1GB的Xml文件,如何使用Java将其拆分为格式正确的小型Xml文件?

这是一个例子:

<records>
  <record id="001">
    <name>john</name>
  </record>
 ....
</records>
Run Code Online (Sandbox Code Playgroud)

谢谢.

bdo*_*han 18

我会在这种情况下使用StAX解析器.它将阻止整个文档一次被读入内存.

  1. 将XMLStreamReader推进到子片段的本地根元素.
  2. 然后,您可以使用javax.xml.transform API从此XML片段生成新文档.这会将XMLStreamReader推进到该片段的末尾.
  3. 对下一个片段重复步骤1.

代码示例

对于以下XML,将每个"statement"部分输出到以"account attributes value"命名的文件中:

<statements>
   <statement account="123">
      ...stuff...
   </statement>
   <statement account="456">
      ...stuff...
   </statement>
</statements>
Run Code Online (Sandbox Code Playgroud)

这可以使用以下代码完成:

import java.io.File;
import java.io.FileReader;
import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamConstants;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;

public class Demo {

    public static void main(String[] args) throws Exception  {
        XMLInputFactory xif = XMLInputFactory.newInstance();
        XMLStreamReader xsr = xif.createXMLStreamReader(new FileReader("input.xml"));
        xsr.nextTag(); // Advance to statements element

        TransformerFactory tf = TransformerFactory.newInstance();
        Transformer t = tf.newTransformer();
        while(xsr.nextTag() == XMLStreamConstants.START_ELEMENT) {
            File file = new File("out/" + xsr.getAttributeValue(null, "account") + ".xml");
            t.transform(new StAXSource(xsr), new StreamResult(file));
        }
    }

} 
Run Code Online (Sandbox Code Playgroud)

  • 当我们可以直接从XMLStreamReader管道传输到XMLStreamWriter,滚动到每个第n个记录元素之间的新文件时,为什么要涉及javax.xml.transform? (3认同)
  • 是的,这是热门提示,只是将它们"管道"在一起并偶尔"关闭"并重新打开每个N条记录的XMLStreamWriter. (2认同)
  • @Somu我确实必须将`while`循环更改为`while(xsr.isStartElement()|| xsr.nextTag()== XMLStreamConstants.START_ELEMENT)`并在`之前添加一个额外的xsr.nextTag()`。 while`循环。也许对您也一样?问题在于子片段的转换也前进到下一个元素,因此`nextTag()`的层次移动得太深了。 (2认同)