为什么在使用Jsoup连接到特定网页时出现404错误?

hei*_*man 2 java dom connect http-status-code-404 jsoup

我正在尝试从Metacritic获取一些视频游戏数据,并且我在此网页上一直收到404错误:

http://www.metacritic.com/game/playstation-2/ico
Run Code Online (Sandbox Code Playgroud)

connect命令非常基本:

Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.110 Safari/537.36").timeout(0).get();
Run Code Online (Sandbox Code Playgroud)

在Metacritic的数百个类似的视频游戏网页中,我尝试过连接,这是唯一每次都返回404的网页.知道为什么吗?

ysh*_*vit 7

服务器返回404.

$ curl -I http://www.metacritic.com/game/playstation-2/ico
HTTP/1.1 404 Not Found
Content-Type: text/html; charset=UTF-8
Server: Apache
X-Varnish: 868026494
Date: Tue, 10 Sep 2013 15:26:21 GMT
Connection: keep-alive
Run Code Online (Sandbox Code Playgroud)

返回非404内容的事实不会影响Jsoup; 它只是查看服务器在HTTP标头中提供的代码.

欢迎来到craptastic"怎么办?!" 互联网的世界.:)有趣的是,curl -I http://www.metacritic.com/game/playstation-2/SDKFJSDF返回一个HTTP头代码,200 OK但仍然显示一个内容为404的页面.我是否提到互联网中充满了废话?

您可以通过调用忽略这些错误ignoreHttpErrors(true)Connection.Request对象.

  • 制作网站(或该网页)的人正在玩笑话. (2认同)