如何获取任何网址或网页的Google缓存时限?

Tok*_*ahu 261 html url hyperlink web-scraping

在我的项目中,我需要将Google缓存时代添加为重要信息.我尝试搜索Google缓存时代的来源,即Google上次重新索引所列页面的天数.

我在哪里可以获得Google缓存时代?

Sea*_*oyd 375

使用URL

https://webcache.googleusercontent.com/search?q=cache:<your url without "http://">
Run Code Online (Sandbox Code Playgroud)

例:

https://webcache.googleusercontent.com/search?q=cache:stackoverflow.com

它包含这样的标题:

这是Google的https://stackoverflow.com/缓存.这是该页面的快照,因为它出现在2012年8月21日格林威治标准时间11:33:38.在此期间,当前页面可能已发生变化.了解详情
提示:要在此页面上快速查找搜索字词,请按Ctrl+F+F(Mac)并使用查找栏.

  • 您还可以在Google搜索中使用`cache:`搜索运算符 (25认同)
  • 对于“https”,它需要“https://”部分,否则返回 404 (2认同)

Ian*_*bee 19

您需要抓取生成的页面,但您可以使用以下URL查看最新的缓存页面:

http://webcache.googleusercontent.com/search?q=cache:www.something.com/path
Run Code Online (Sandbox Code Playgroud)

Google信息放在body标记的第一个div中.


Ami*_*inM 16

您可以使用CachedPages网站

缓存页面通常由具有强大Web服务器的大公司保存和存储.由于此类服务器通常非常快,因此通常可以比实时页面本身更快地访问缓存页面:

  • Google通常会保留该页面的最新副本(1到15天之前).
  • 珊瑚也保留了最近的副本,虽然它通常不像谷歌那样新近.
  • 通过Archive.org,您可以访问多年来保存的多个网页副本.


Jas*_*ark 5

它太简单了,你可以在页面的 URL 前输入“缓存:”。例如,如果您想检查此页面的最后一个网络缓存,只需在 URL 栏上输入cache:http://stackoverflow.com/questions/4560400/how-can-i-get-the-google-cache-age-of-any-url-or-web-page

这将显示页面的最后一个网络缓存。请参见此处:

在此处输入图片说明

但请记住,仅当页面已在搜索引擎(Google)上编入索引时,网页的缓存才会显示。为此,您需要检查该页面的元机器人标签。