如何处理被欺骗的用户代理?伪装成蜘蛛的刮板

Rya*_*zel 3 scraping

我一直在我们的日志中跟踪一些蜘蛛,我在他们的 ip 上做了一个跟踪路由,以发现它们实际上是 EC2 实例。用户代理被列为 Google bot 和 msnbot,但它们不是 Google 或 MS ip。有什么我可以做的吗,欺骗用户代理是一种常见的做法吗?我猜如果我禁止他们的 ip(我已经这样做了),他们只会启动一个新实例并继续。不过,我不想禁止所有 EC2 实例。

Sha*_*den 5

当你真正开始钻研日志时,你会发现大量的机器人在做header spoofing;他们中的大多数人伪装成 IE(其中一些人没有成功;打字错误会让您的代理字符串快速被发现!)。

有一个有趣的 EFF 实验,它着眼于使用浏览器提供的数据唯一地识别用户:Panopticlick。在应用程序级别收集更多信息以尝试阻止可能会让您到达某个地方,因为非浏览器节点将无法返回其中一些字段。

但是,同样的道理,阻止他们的 IP 不太可能长期有效,如果他们决心对您进行蜘蛛网攻击,那么尝试基于用户代理(或任何其他独特标准)进行阻止也不太可能长期有效。最后,尝试阻止网络上的每个流氓机器人并不值得您花费时间或精力;只需设置您的 robots.txt 文件,留意那些试图用 SQL 注入或类似方法攻击您的讨厌的文件,然后就可以轻松休息了。