为什么org.apache.xerces.parsers.SAXParser不会跳过utf8编码的xml中的BOM？

Question

为什么org.apache.xerces.parsers.SAXParser不会跳过utf8编码的xml中的BOM？

我有一个带utf8编码的xml.此文件包含BOM作为文件的开头.所以在解析过程中我遇到了org.xml.sax.SAXParseException:prolog中不允许使用内容.我无法从文件中删除这3个字节.我无法将文件加载到内存中并在此处删除它们(文件很大).因此,出于性能原因,我正在使用SAX解析器,如果它们在""标记之前存在,则只想跳过这3个字节.我应该为此继承InputStreamReader吗？

我是java的新手 - 请告诉我正确的方法.

Answer 1

Adr*_*Cox 4

这个问题以前也出现过，当它发生在我身上时，我在 Stack Overflow 上找到了答案。链接的答案使用 aPushbackInputStream来测试 BOM。

归档时间：	14 年，7 月前
查看次数：	5673 次
最近记录：	12 年，5 月前