我有一个联系人在解析RSS和Atom文件时遇到SAX问题.根据他的说法,就好像来自Item元素的文本被截断为撇号或有时是重音字符.编码似乎也有问题.
我已经尝试过SAX了,我也有一些截断,但是还没有进一步挖掘.如果有人在此之前解决了这个问题,我会很感激.
这是在ContentHandler中使用的代码:
public void characters( char[], int start, int end ) throws SAXException {
//
link = new String(ch, start, end);
Run Code Online (Sandbox Code Playgroud)
编辑:编码问题可能是由于将信息存储在字节数组中,因为我知道Java在Unicode中工作.