从Google搜索结果中抓取数据是否可以?

ML_*_*ML_ 60 web-scraping

我想使用curl从Google获取结果,以检测潜在的重复内容.是否存在被Google禁止的高风险?

Joh*_*ohn 110

Google不允许在其服务条款中自动访问,因此如果您接受他们的条款,您就会破坏它们.

也就是说,我知道Google不会对刮刀提起诉讼.即便是微软也不顾谷歌,他们用自己的搜索引擎Bing推动了它.他们在2011年被红色抓住了 :)

刮取Google搜索结果有两种选择:

1)使用他们的API

  • 您每小时可以发出大约40个请求您只能看到他们给您的内容,如果您想跟踪排名位置或真实用户会看到什么,这并不是很有用.这是你不被允许收集的东西.

  • 如果您需要更高数量的API请求,则需要付费.

  • 每小时60个请求每年花费2000美元,更多查询需要定制交易.

2)刮取正常结果页面

  • 这是棘手的部分.可以刮取正常结果页面.谷歌不允许这样做.
  • 如果您以高于8 (从15更新)的关键字请求每小时搜索一次风险检测,高于10/h (从20更新)将阻止您的体验.
  • 通过使用多个IP,您可以提高速率,因此使用100个IP地址,您每小时可以获取多达1000个请求.(每天24k)(更新)
  • 有一个用PHP编写的开源搜索引擎刮刀http://scraping.compunect.com 它可以可靠地刮掉谷歌,正确解析结果并管理IP地址,延迟等等.所以如果你可以使用PHP它是一个不错的kickstart,否则代码仍然有助于了解它是如何完成的.

3)或者使用抓取服务(更新)

  • 最近我的一个客户有一个巨大的搜索引擎刮痧要求,但它不是'持续',它更像是每月一次巨大的刷新.
    在这种情况下,我找不到一个"经济"的自制解决方案.
    我使用了http://scraping.services上的服务.他们还提供开源代码,到目前为止运行良好(刷新期间每小时数千个结果页)
  • 缺点是这样的服务意味着您的解决方案"绑定"给一个专业供应商,好处是它比我评估的其他选项便宜很多(在我们的情况下更快)
  • 减少对一家公司的依赖的一个选择是同时制定两种方法.使用抓取服务作为主要数据源,并在需要时回退到2)中描述的基于代理的解决方案.

  • 实际上Google会定期对NAT IP进行验证,我已经在多家公司工作,并且验证码的情况多次出现.我还应该澄清,我的意思是20个具有不同关键字的请求,只要您坚持使用相同的关键字,您可以继续浏览结果页面.一小时后也不会发生这种情况,你可以实际爆破谷歌但是如果你继续以更高的速度命中它,你将被送入Captcha-land.谷歌似乎对爆发很友好,但如果继续下去就不行.试试吧:) (6认同)
  • 我对此解释的问题是,即使少数人共享相同的IP,每小时也会超过20个请求.如果这就是整个故事那么谷歌基本上会阻止每个小型企业大量使用计算机.接受的答案会有同样的问题. (5认同)
  • @Joozty:https://www.google.com/intl/zh-CN/policies/terms/"请勿滥用我们的服务.例如,请勿干扰我们的服务或尝试使用非界面和我们提供的说明." "如果您不遵守我们的条款或政策,或者我们正在调查可疑的不当行为,我们可能会暂停或停止向您提供服务." 我不确定是否还有不同的TOS.根据服务条款,如果违反规定,他们保留停止服务的权利.这也是我所知道的唯一后果. (2认同)

Sev*_*rin 50

当您超过一定数量的请求时,Google最终会阻止您的IP.

  • 我最后一次看到它时,我正在使用API​​通过Google进行搜索.如果我没记错,那个限制是每天2.500个请求. (4认同)
  • 您始终可以使用 [SerpApi](https://www.serpapi.com/) 等第三方解决方案来为您执行此操作。它是一个可免费试用的付费 API。他们处理代理、解决验证码并为您解析所有丰富的结构化数据。 (2认同)

rag*_*hav 13

谷歌在抓取世界上的网站上茁壮成长……所以如果它“如此非法”,那么即使是谷歌也无法生存……当然其他答案提到了谷歌减轻 IP 封锁的方法。探索避免验证码的另一种方法可能是随机抓取(尝试)..此外,我有一种感觉,如果我们提供新颖性或一些重要的数据处理,那么至少对我来说听起来不错......如果我们只是简单地复制一个网站......或以某种方式阻碍其业务/品牌......那么这是不好的,应该避免......最重要的是......如果你是一家初创公司,那么没有人会像那里那样与你抗争没有任何好处......但是如果你的整个前提是在你获得资金的情况下进行抓取,那么你应该考虑更复杂的方法......替代API......最终......