Dyl*_*ade 14 javascript jquery json google-chrome
如何在Google的搜索结果中获取页面URL的绝对URI或base64编码列表?
目标:
通过URL数组迭代:
pages["pinelakedesign.com"];
pages["pinelakedesign.com/about"];
pages["pinelakedesign.com/contact"];
Run Code Online (Sandbox Code Playgroud)
输出:
Google正在使用缩略图JPG图像的base64字符串编码作为其可视化搜索结果.在2011年,此缩略图服务已使用此问题中描述的放大镜和绝对URI构造从以前的系统更改:https: //stackoverflow.com/questions/6881319/google-web-thumbnails
我只想将网页中的页面列表作为谷歌缩略图进行平铺,这样我就知道哪些页面已经被编入索引,并且一目了然地缩略图,以及这些页面的外观是什么样的.
编辑2011年11月5日
我发现对此URL的调用会返回带有base64编码,Google搜索结果标题,说明和URL的JSONP.
https://clients1.google.com/webpagethumbnail?r=4&f=3&s=400:585&query=pine+lake+design&hl=en&gl=us&c=29&d=http%3A%2F%2Fwww.pinelakedesign.com%2F&b=1&j=google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3&expi=17291,27615,28936,30049,30316,31215,32035,32271,32410,32940,33104,33194,33627,33788,33854,33907,33975,34103&a=2NT
Run Code Online (Sandbox Code Playgroud)
query =参数是在Google中搜索的内容.d =是链接的目的地,也可能是缩略图的来源.s = 400:585是高度和宽度.我不确定r = 4和f = 3是做什么的.修改任何这些变量都会导致404错误.我的预感是expi =是基于不同参数值的某种校验和到期算法,但我不知道.
返回JSONP:
google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3({"s":"b","b":1,"quality":100,"shards":[{"heights":[300,131],"imgs":["data:image/jpeg;base64,/9j/4AAQSkZ ...THIS IS THE LONG BASE64 ENCONDING ...pa5r61f/9k="],"tbts":[{"box":{"h":15,"l":0,"t":39,"w":224},"txt":"<em>Pine Lake</em> specializes in small business website <em>design</em>, redesign and hosting. We have developed the Sungem content management system which allows our <b>...</b>","txtBox":{"h":57,"l":0,"t":58,"w":400}}]}],"url":"http://www.pinelakedesign.com/"}
)
Run Code Online (Sandbox Code Playgroud)
更新2011年11月8日
我正在寻找像emedly的预览一样的解决方案来查看Google缩略图.
2012年2月9日更新
使用Phantom JS看起来是实现服务器端远程快照的好方法,但它无法确定如何获取Google的图像.
2012年3月26日更新
我相信Google的搜索蜘蛛是运行1024px宽分辨率的桌面Chrome的无头版本.Chrome蜘蛛会允许蜘蛛执行Javascript,使用@ font-face,CSS3选择器,查看Flash(甚至等待预加载器达到100%)并在加载所有资源和DOM操作后获取渲染页面的准确快照.谷歌的任何人都应该权衡确认或否认任何事情吗?
小智 8
基本上,他们首先对查询网址发出curl请求,然后从html响应中获取缺少的"a"参数.然后他们使用它来构建正确的URL并对api调用google API来获取图像.之后会有更复杂的工作,例如将结果图像与ImageMagick合并以获得完整的预览,但这是一个加号......
归档时间: |
|
查看次数: |
6111 次 |
最近记录: |