bet*_*max 2 php blogger web-crawler
我问这个是因为我正在创建一个蜘蛛来收集来自blogger.com的数据,用于大学的数据可视化项目.
蜘蛛将在博客的浏览功能上查找大约17,000个值,并且(匿名地)保存某些值,如果它们符合正确的标准.
我一直在运行蜘蛛(用PHP编写)并且工作正常,但我不想将我的IP列入黑名单或类似的东西.有没有人对企业网站有任何了解,以及他们对这类事情的限制?
此外,如果有限制,我可以做些什么来绕过它们?目前我能想到的只是稍微帮助解决这个问题; 在对站点的调用之间添加随机延迟(0到5秒之间)或通过随机代理运行脚本来伪装请求.
通过必须做上述方法之类的事情,它让我觉得好像我做错了.如果他们出于某种原因阻止我,我会很生气,因为blogger.com归谷歌所有,他们的主要产品是网络蜘蛛.Allbeit,他们的蜘蛛不会将其请求发送到一个网站.