用Java解析HTML数据,包括&lt和gt标签?

Dee*_*epu 1 java html-parsing htmleditorkit

我想用Java解析HTML文本.

我试图使用javax.swing.text.html.HTMLEditorKit解析HTML数据.它帮助我从HTML获取数据.但我有一个HTML数据,如 -

<span class="TitleServiceChange" >Service Change</span>
                    <span class="DateStyle">
                     Posted: 12/16/2012  8:00PM
                    </span><br/><br/>
                  <P>
Run Code Online (Sandbox Code Playgroud)

周围的'<''>' 而不是'<''>'

在解析上面的文本时,我收到错误 -

Parsing error: start.missing body ? ? at
Run Code Online (Sandbox Code Playgroud)

请建议我解决我的问题.提前致谢.

Tom*_*ros 5

为了取消包含在字符串中的完整转义字符集,您可以使用Apache Commons Lang实用程序库.

具体来说,使用StringEscapeUtils类,您可以在其中找到该unescapeHtml4方法.