如果我多次要求,<插入热门网站>会限制我访问他们的网站吗?

bet*_*max 2 php blogger web-crawler

我问这个是因为我正在创建一个蜘蛛来收集来自blogger.com的数据,用于大学的数据可视化项目.

蜘蛛将在博客的浏览功能上查找大约17,000个值,并且(匿名地)保存某些值,如果它们符合正确的标准.

我一直在运行蜘蛛(用PHP编写)并且工作正常,但我不想将我的IP列入黑名单或类似的东西.有没有人对企业网站有任何了解,以及他们对这类事情的限制?

此外,如果有限制,我可以做些什么来绕过它们?目前我能想到的只是稍微帮助解决这个问题; 在对站点的调用之间添加随机延迟(0到5秒之间)或通过随机代理运行脚本来伪装请求.

通过必须做上述方法之类的事情,它让我觉得好像我做错了.如果他们出于某种原因阻止我,我会很生气,因为blogger.com归谷歌所有,他们的主要产品是网络蜘蛛.Allbeit,他们的蜘蛛不会将其请求发送到一个网站.

Pek*_*ica 10

很可能他们有某种限制的,并且是有办法来规避他们(僵尸农场,例如使用随机代理),但很可能没有人会完全合法的,也不是非常可行的技术:)

如果您正在访问博客,无论如何都无法使用API密钥登录并直接查询数据?它可以比抓取页面更可靠,更容易出错,这可能会被禁止,并且一旦请求数量足够大以至于他们开始关注,就会导致麻烦.Google对每个API密钥允许的流量非常慷慨.

如果一切都失败了,为什么不给他们写一封电子邮件.谷歌有着对学术项目友好的声誉,如果需要,他们可能会给你更多的流量.