我有一个XML文档,它是从人们从各种地方复制/粘贴的一些内容生成的(尽管大多数是Word文档).
它看起来像这样:
<?xml version="1.0" encoding="UTF-8"?>
<response>
<data> <![CDATA[
(whatever was pasted)
]]></data>
</response>
Run Code Online (Sandbox Code Playgroud)
我总是使用UTF-8
或的编码iso-8859-1
,但现在有人已经离开并复制/粘贴unicode字符U+001A
(0x1a
),我找不到会接受它的编码.我把XML文件放入的所有东西(例如Firefox,Internet Explorer,XML Spy)都说它无效,无论使用何种编码.
是否有我可以使用的编码会阻止文件翻倒,或者我是否需要开始逐个剥离所有这些字符?
U + 001A不是XML文档中的有效字符.根据规范的有效字符范围是:
Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
3379 次 |
最近记录: |