Python - 轻松刮取谷歌,下载针对特定搜索的前N个点击(整个.html文档)？

Question

是否有一种简单的方法可以刮取谷歌并为给定的搜索编写前N个(比如1000).html(或其他)文档的文本(只是文本)？

例如,想象一下搜索短语"大坏狼"并从前1000个点击下载文本 - 即实际从这1000个网页下载文本(但只是那些页面,而不是整个网站).

我假设这会使用urllib2库？如果有帮助我使用Python 3.1.

Answer 1

以编程方式从 Google 获取结果的官方方法是使用Google 的自定义搜索 API。正如icktoofay评论的那样，其他方法（例如直接抓取结果或使用xgoogle模块）违反了Google 的服务条款。因此，您可能需要考虑使用其他搜索引擎的 API，例如Bing API或Yahoo! 的服务。