对包含U + 001A的XML文档进行编码

Mar*_*son 1 xml unicode

我有一个XML文档,它是从人们从各种地方复制/粘贴的一些内容生成的(尽管大多数是Word文档).

它看起来像这样:

<?xml version="1.0" encoding="UTF-8"?>
<response>
    <data> <![CDATA[
         (whatever was pasted)
    ]]></data>        
</response>
Run Code Online (Sandbox Code Playgroud)

我总是使用UTF-8或的编码iso-8859-1,但现在有人已经离开并复制/粘贴unicode字符U+001A(0x1a),我找不到会接受它的编码.我把XML文件放入的所有东西(例如Firefox,Internet Explorer,XML Spy)都说它无效,无论使用何种编码.

是否有我可以使用的编码会阻止文件翻倒,或者我是否需要开始逐个剥离所有这些字符?

Jim*_*Jim 6

U + 001A不是XML文档中的有效字符.根据规范的有效字符范围是:

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
Run Code Online (Sandbox Code Playgroud)