最新的Open JDK 8 JAXB库无法解析具有包含换行符的属性的对象

Geo*_*f S 6 java xml oracle jaxb unmarshalling

我在Ubuntu 16.04上使用Java.最近我升级到使用oracle-java8-installer软件包安装的Open JDK java版"1.8.0_161"(软件包版本8u161-1~webupd8~0).自从进行此升级以来,在进行Java对象的JAXB编组时,我遇到了新的异常.

具体来说,当尝试使用JAXB将Java对象编组为XML时,如果Java对象具有包含任何换行("\n")字符的String属性并且该String属性被序列化为元素内容,则会出现以下异常: XML.(另外,如果将String属性序列化为属性内容,则String值中的任何换行符都将转换为空格字符,并且不会触发异常.)

似乎正在发生的是

com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput $ NewLineEscapeHandler.escape

将Java对象的String属性中的换行符转换为实体引用
.然后将此实体引用写出到XML输出流,但在验证实体引用名称时,抛出异常,因为#xa未被识别为有效的实体引用名称.

这是预期的行为吗?如果是这样,我该怎么做才能在Java对象的序列化中保留换行符?如果没有,我该怎么做才能解决这个问题?

堆栈跟踪的相关部分是:

... Caused by: javax.xml.stream.XMLStreamException: Invalid name start character '#' (code 35) (name "#xa")
at com.fasterxml.aalto.out.XmlWriter.throwOutputError(XmlWriter.java:472)
at com.fasterxml.aalto.out.XmlWriter.reportNwfName(XmlWriter.java:383)
at com.fasterxml.aalto.out.ByteXmlWriter.verifyNameComponent(ByteXmlWriter.java:235)
at com.fasterxml.aalto.out.ByteXmlWriter.constructName(ByteXmlWriter.java:181)
at com.fasterxml.aalto.out.WNameTable.findSymbol(WNameTable.java:324)
at com.fasterxml.aalto.out.StreamWriterBase.writeEntityRef(StreamWriterBase.java:615)
at net.galexy.fieldguide.jaxb.CustomXMLStreamWriter.writeEntityRef(CustomXMLStreamWriter.java:198)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$XmlStreamOutWriterAdapter.writeEntityRef(XMLStreamWriterOutput.java:277)
at com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput$NewLineEscapeHandler.escape(XMLStreamWriterOutput.java:242)
... 60 more
Run Code Online (Sandbox Code Playgroud)

例如,如果我解组以下XML:

<?xml version='1.0' encoding='UTF-8'?>
<description>
   <note>The text of the note</note>
</description>
Run Code Online (Sandbox Code Playgroud)

然后尝试将其编组回XML,然后不会抛出任何异常.

但是,如果注释内容中间有一个新行:

<?xml version='1.0' encoding='UTF-8'?>
<description>
   <note>The text of
         the note</note>
</description>
Run Code Online (Sandbox Code Playgroud)

然后抛出异常.

正在使用的JAXB上下文是com.sun.xml.internal.bind.v2.runtime.JAXBContextImpl.

正在使用的JAXB编组器是 com.sun.xml.internal.bind.v2.runtime.MarshallerImpl

在寻找有关这些更改的更多信息时,我遇到了以下错误报告,该报告表明其他人在此版本的JAXB中遇到了相同的更改:

JDK-8196491 SOAP请求的JAXB字符串值中的换行符被转义为" "

这个堆栈溢出问题的答案表明我可以通过让我的marshaller使用自定义实现来恢复对字符转义的控制com.sun.xml.bind.marshaller.CharacterEscapeHandler.

这让我感到困惑,因为javax.xml.bind.Marshaller它似乎没有声明静态属性名称,com.sun.xml.bind.marshaller.CharacterEscapeHandler而它声明了其他属性名称Marshaller.JAXB_FORMATTED_OUTPUT,如等于"jaxb.formatted.output.

即使我可以指示marshaller使用我的自定义字符转义处理程序,我也不完全确定我应该在该转义处理程序中做什么.是否有一个合适的基本转义处理程序,我可以重写以继承所有标准转义处理,以确保我介入以阻止换行字符的转义?

我也尝试过Oracle Java 9(软件包版本9.0.4-1~webupd8~0),该版本的Java也有同样的问题.

我还尝试了下一版本的Oracle Java 8(1.8.0_162),该版本也有同样的问题.

从Oracle网站(1.8.0_152)下载旧版本的Java可以解决问题,但不是解决问题的令人满意的方法.

zak*_*mck 3

就我而言,我使用 JAXB 将一些对象转换为 XML,并通过 StAX/WoodStox 将它们序列化为文件。我已经通过过滤正在序列化的 XML 设法解决了有问题的问题。详细来说,该方法是这样的:

  1. 定义一个自定义的StreamWriter2Delegateoverride writeEntityRef(),这样,当此方法接收到错误的实体代码(#xd#xa)时,它会调用其委托来实际写回原始字符(即\n\r),而实际上不需要转义:

    @Override
    public void writeEntityRef ( String eref ) throws XMLStreamException
    {
        if ( eref == null || !eref.startsWith ( "#x" ) ) {
            super.writeEntityRef ( eref );
            return;
        }
        String hex = eref.substring ( 2 );
        for ( char c: new char[] { '\r', '\n' } )
            if ( Integer.toHexString ( c ).equals ( hex ) ) {
                this.writeCharacters ( Character.toString ( c ) );
                return;
        }
        super.writeEntityRef ( eref );
    }
    
    Run Code Online (Sandbox Code Playgroud)

这与他们已经针对此问题提交的修复程序等效(除了一些开销之外),该修复程序应该在 JDK8u192 中可用(并且应该已经在 J​​DK 9/10 中)。

  1. 用上面的过滤器包裹你的XMLStreamWriter2,例如:

    FileOutputStream fout = new FileOutputStream ( "test.xml" );
    WstxOutputFactory wsof = (WstxOutputFactory) WstxOutputFactory.newInstance();
    XMLStreamWriter2 xmlOut = (XMLStreamWriter2) wsof.createXMLStreamWriter ( fout, CharsetNames.CS_UTF8 );
    xmlOut = new NewLineFixWriterFilter ( xmlOut );
    // Now write into xmlOut, directly or via JAXB
    
    Run Code Online (Sandbox Code Playgroud)

完整/生产代码在这里。对类似的管道采用相同的方法应该不难(一般来说,问题的发生是因为com.sun.xml.internal.bind.v2.runtime.output.XMLStreamWriterOutput转义\n\r错误的方式,所以技巧是从上层劫持这个错误的编码)。