当apache.httpclient能够获取内容时,JSoup.connect会抛出403错误

Question

当apache.httpclient能够获取内容时,JSoup.connect会抛出403错误

ins*_*ect 19 java html-parsing jsoup

我试图解析任何给定页面的HTML转储.我使用HTML Parser并尝试使用JSoup进行解析.

我在Jsoup中找到了有用的函数,但是在调用时遇到403错误 Document doc = Jsoup.connect(url).get();

我尝试了HTTPClient,以获得html转储,并且它在同一个网址上获得了成功.

为什么JSoup为同一个URL提供403,它提供来自公共http客户端的内容？难道我做错了什么？有什么想法吗？

Answer 1

ins*_*ect 47

工作解决方案如下(感谢Angelo Neuschitzer提醒将其作为解决方案):

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

Run Code Online (Sandbox Code Playgroud)

所以,userAgent做的诀窍:)

归档时间：	14 年，2 月前
查看次数：	8013 次
最近记录：	10 年，10 月前