Tok*_*ahu 261 html url hyperlink web-scraping
在我的项目中,我需要将Google缓存时代添加为重要信息.我尝试搜索Google缓存时代的来源,即Google上次重新索引所列页面的天数.
我在哪里可以获得Google缓存时代?
Sea*_*oyd 375
使用URL
https://webcache.googleusercontent.com/search?q=cache:<your url without "http://">
Run Code Online (Sandbox Code Playgroud)
例:
https://webcache.googleusercontent.com/search?q=cache:stackoverflow.com
它包含这样的标题:
这是Google的https://stackoverflow.com/缓存.这是该页面的快照,因为它出现在2012年8月21日格林威治标准时间11:33:38.在此期间,当前页面可能已发生变化.了解详情
提示:要在此页面上快速查找搜索字词,请按Ctrl+F或⌘+F(Mac)并使用查找栏.
Ian*_*bee 19
您需要抓取生成的页面,但您可以使用以下URL查看最新的缓存页面:
http://webcache.googleusercontent.com/search?q=cache:www.something.com/path
Run Code Online (Sandbox Code Playgroud)
Google信息放在body标记的第一个div中.
Ami*_*inM 16
您可以使用CachedPages网站
缓存页面通常由具有强大Web服务器的大公司保存和存储.由于此类服务器通常非常快,因此通常可以比实时页面本身更快地访问缓存页面:
它太简单了,你可以在页面的 URL 前输入“缓存:”。例如,如果您想检查此页面的最后一个网络缓存,只需在 URL 栏上输入cache:http://stackoverflow.com/questions/4560400/how-can-i-get-the-google-cache-age-of-any-url-or-web-page
这将显示页面的最后一个网络缓存。请参见此处:
但请记住,仅当页面已在搜索引擎(Google)上编入索引时,网页的缓存才会显示。为此,您需要检查该页面的元机器人标签。