如何使用Java解码html代码?

use*_*ser 6 html java regex decode

可能重复:
Java:如何解码Java中的HTML字符实体,如HttpUtility.HtmlDecode?

我需要titlehtml文件中提取段落(如StackOverflow).

我可以在Java中使用正则表达式来提取我需要的字段,但我必须decode获得所获得的字段.

字段提取:

Paging Lucene&#39s search results (with **;** among **&#39** and **s**)
Run Code Online (Sandbox Code Playgroud)

解码后的字段:

Paging Lucene's search results
Run Code Online (Sandbox Code Playgroud)

java中是否有允许我转换这些html代码的类?

jlo*_*rdo 26

使用Apache Commons Lang提供的方法

import org.apache.commons.lang.StringEscapeUtils;
// ...
String afterDecoding = StringEscapeUtils.unescapeHtml(beforeDecoding);
Run Code Online (Sandbox Code Playgroud)