我有一个XML文档,它是从人们从各种地方复制/粘贴的一些内容生成的(尽管大多数是Word文档).
它看起来像这样:
<?xml version="1.0" encoding="UTF-8"?>
<response>
<data> <![CDATA[
(whatever was pasted)
]]></data>
</response>
Run Code Online (Sandbox Code Playgroud)
我总是使用UTF-8或的编码iso-8859-1,但现在有人已经离开并复制/粘贴unicode字符U+001A(0x1a),我找不到会接受它的编码.我把XML文件放入的所有东西(例如Firefox,Internet Explorer,XML Spy)都说它无效,无论使用何种编码.
是否有我可以使用的编码会阻止文件翻倒,或者我是否需要开始逐个剥离所有这些字符?
U + 001A不是XML文档中的有效字符.根据规范的有效字符范围是:
Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3379 次 |
| 最近记录: |