保留数字字符实体字符,例如` 
` 在 Java 中解析 XML 时

tkj*_*kja 5 java xml unicode dom sax

我正在解析包含数字字符实体字符的 XML,例如(但不限于)&#10; &#13; &lt; &gt;(换行回车 < >)在 Java 中。在解析时,我将节点的文本内容附加到 StringBuffer 以便稍后将其写入文本文件。

但是,当我将字符串写入文件或打印出来时,这些 un​​icode 字符会被解析或转换为换行符/空格。

在 Java 中迭代 XML 文件的节点并将文本内容节点存储到字符串时,如何保留原始数字字符实体字符符号?

演示 xml 文件示例:

<?xml version="1.0" encoding="UTF-8"?>
<ABCD version="2">    
    <Field attributeWithChar="A string followed by special symbols &#13;  &#10;" />
</ABCD>
Run Code Online (Sandbox Code Playgroud)

示例 Java 代码。它加载 XML,遍历节点并将每个节点的文本内容收集到 StringBuffer。迭代结束后,它将 StringBuffer 写入控制台并写入文件(但没有&#10; &#13;)符号。

将它们存储到字符串时,保留这些符号的方法是什么?请你帮助我好吗?谢谢你。

public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException, TransformerException {   
    DocumentBuilderFactory documentFactory = DocumentBuilderFactory.newInstance();
    Document document = null;
    DocumentBuilder documentBuilder = documentFactory.newDocumentBuilder();
    document = documentBuilder.parse(new File("path/to/demo.xml"));
    StringBuilder sb = new StringBuilder();

    NodeList nodeList = document.getElementsByTagName("*");
    for (int i = 0; i < nodeList.getLength(); i++) {
        Node node = nodeList.item(i);
        if (node.getNodeType() == Node.ELEMENT_NODE) {
            NamedNodeMap nnp = node.getAttributes();
            for (int j = 0; j < nnp.getLength(); j++) {
                sb.append(nnp.item(j).getTextContent());
            }
        }
    }
    System.out.println(sb.toString());

    try (Writer writer = new BufferedWriter(new OutputStreamWriter(
            new FileOutputStream("path/to/demo_output.xml"), "UTF-8"))) {
        writer.write(sb.toString());
    }
}
Run Code Online (Sandbox Code Playgroud)

Rav*_*yal 4

在将文件解析为Document. 您可以通过使用其相应的 XML 实体对& 符号 本身进行转义来实现这一点。就像是,&&amp;

DocumentBuilder documentBuilder =
        DocumentBuilderFactory.newInstance().newDocumentBuilder();

String xmlContents = new String(Files.readAllBytes(Paths.get("demo.xml")), "UTF-8");

Document document = documentBuilder.parse(
         new InputSource(new StringReader(xmlContents.replaceAll("&", "&amp;"))
        ));
Run Code Online (Sandbox Code Playgroud)

输出 :

2A string followed by special symbols &#13;  &#10;
Run Code Online (Sandbox Code Playgroud)

  • 数字字符引用不是实体引用,尽管它们使用相同的 &amp;; 分隔符。就 xml 而言,数字字符引用和它引用的 Unicode 字符之间没有区别。转义每个 &amp; 符号的另一种方法是使用 &lt;![CDATA[]]&gt; 部分...但一般来说,其中任何一个都意味着您正在尝试解决错误的问题,而应该问自己为什么正常的 xml 标记可以不被利用。 (4认同)
  • @tkja Keshlam 是正确的。技术术语 &amp;#nnnn; 是数字字符引用 (NCR)。只是,“/amp/apos/lt/gt” 被视为 XML 字符实体(更多信息请访问 http://en.wikipedia.org/wiki/Character_entity_reference)。因此,也许这可以解释为什么 setExpandEntityReferences(false) 没有任何效果。但幸运的是,转义 &amp; 符号对它们都有效。 (2认同)