忽略jsoup解析中的链接,广告等

Chr*_*ris 1 java web-scraping jsoup

我正在使用jsoup来抓取不同的html页面:

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}
Run Code Online (Sandbox Code Playgroud)

它工作得很漂亮.然而,似乎有很多与其回报相关的毛病(即:网站链接[a href]).有没有快速的方法在jsoup中省略这个?我找到了getElementsByTag文献,但我很难使用它.

先感谢您.

vac*_*uum 6

您可以"清理"已解析的文档,请参阅示例.例如,只留下简单的文字:

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);
Run Code Online (Sandbox Code Playgroud)

或者,您可以简单地删除所有a标签:

doc.select("a").remove();
Run Code Online (Sandbox Code Playgroud)