Java:解析html文件并提取文本

Question

Java:解析html文件并提取文本

我想解析一个HTML文件并存储粗体文本(内部<b>标签).一种解决方案是逐行读取文件并拆分或使用RegEx.这意味着我应该将整个页面存储在一个String变量中？如果我不将它保存在变量中,那么我无法保证标记的开头和它的结尾在同一行.

你建议什么解决方案？

Answer 1

dav*_*rld 5

使用JSoup来解析内容

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

Run Code Online (Sandbox Code Playgroud)

为什么你不想使用可靠的第三方库？这就像说"我想连接数据库,但我不想使用jdbc". (3认同)

归档时间：	12 年，8 月前
查看次数：	4157 次
最近记录：	12 年，8 月前