Python - 轻松刮取谷歌,下载针对特定搜索的前N个点击(整个.html文档)?

Geo*_*ina 10 python urllib2 google-search web-scraping

是否有一种简单的方法可以刮取谷歌并为给定的搜索编写前N个(比如1000).html(或其他)文档的文本(只是文本)?

例如,想象一下搜索短语"大坏狼"并从前1000个点击下载文本 - 即实际从这1000个网页下载文本(但只是那些页面,而不是整个网站).

我假设这会使用urllib2库?如果有帮助我使用Python 3.1.

Mar*_*air 3

以编程方式从 Google 获取结果的官方方法是使用Google 的自定义搜索 API。正如icktoofay评论的那样,其他方法(例如直接抓取结果或使用xgoogle模块)违反了Google 的服务条款。因此,您可能需要考虑使用其他搜索引擎的 API,例如Bing APIYahoo! 的服务