有没有一种标准的方法来判断页面上次修改的时间?目前我这样做:
URLConnection uCon = url.openConnection();
uCon.setConnectTimeout(5000); // 5 seconds
String lastMod = uCon.getHeaderField("Last-Modified");
System.out.println("last mod: "+lastMod);
Run Code Online (Sandbox Code Playgroud)
但是看起来有些网站没有Last-Modified字段.
http://www.cbc.ca有以下标题字段:
X-Origin-Server
Connection
Expires
null
Date
Server
Content-Type
Transfer-Encoding
Cache-Control
Run Code Online (Sandbox Code Playgroud)
我可以解析一个页面来尝试获取它的日期,但这似乎是一个重大的痛苦.标准是什么?
(如果可能,我想坚持使用URLConnection,因为这是我用来下载网页的)
没有标准.动态生成的网页通常没有Last-Modified字段,不同的网页以不同的方式包含日期.有些网站甚至没有包含这样的日期,包括底部的"©<当前年份>".您可以尝试在底部或顶部附近查找日期,但可靠地从网页中提取日期必须是特定于站点的.
| 归档时间: |
|
| 查看次数: |
2549 次 |
| 最近记录: |