使用Java获取页面的上次修改日期

six*_*ude 2 java webpage date

有没有一种标准的方法来判断页面上次修改的时间?目前我这样做:

URLConnection uCon = url.openConnection();
uCon.setConnectTimeout(5000);   // 5 seconds
String lastMod = uCon.getHeaderField("Last-Modified");
System.out.println("last mod: "+lastMod);
Run Code Online (Sandbox Code Playgroud)

但是看起来有些网站没有Last-Modified字段.

http://www.cbc.ca有以下标题字段:

X-Origin-Server
Connection
Expires
null
Date
Server
Content-Type
Transfer-Encoding
Cache-Control
Run Code Online (Sandbox Code Playgroud)

我可以解析一个页面来尝试获取它的日期,但这似乎是一个重大的痛苦.标准是什么?

(如果可能,我想坚持使用URLConnection,因为这是我用来下载网页的)

Ple*_*and 5

没有标准.动态生成的网页通常没有Last-Modified字段,不同的网页以不同的方式包含日期.有些网站甚至没有包含这样的日期,包括底部的"©<当前年份>".您可以尝试在底部或顶部附近查找日期,但可靠地从网页中提取日期必须是特定于站点的.