假设我拥有Google搜索结果页面的完整HTML.有没有人知道任何现有的代码(Ruby?)来搜索/解析Google搜索结果的第一页?理想情况下,它可以处理可以在任何地方出现的购物结果和视频结果部分.
如果没有,一般来说,最好的基于Ruby的屏幕抓取工具是什么?
澄清:我知道以编程方式/ API方式获取Google搜索结果很困难/不可能而且简单地说CURLing结果页面存在很多问题.这里有关于stackoverflow的这两点的共识.我的问题不同.
我想抓取并将一些网页保存为HTML.比如说,爬进数百个热门网站,只需保存他们的前台和"关于"页面.
我已经查看了很多问题,但是没有从网页抓取或网页抓取问题中找到答案.
我应该使用什么库或工具来构建解决方案?或者甚至有一些现有的工具可以处理这个?