如何在java中提取网页文本内容?

Rad*_*adi 6 java

我正在寻找一种方法,使用jdk或其他库从网页(最初是html)中提取文本.请帮忙

谢谢

Pas*_*ent 12

使用jsoup.这是目前最优雅的屏幕抓取库.

URL url = new URL("http://example.com/");
Document doc = Jsoup.parse(url, 3*1000);
String title = doc.title();
Run Code Online (Sandbox Code Playgroud)

我只是喜欢它的CSS选择器语法.