如何处理被欺骗的用户代理？伪装成蜘蛛的刮板

Question

如何处理被欺骗的用户代理？伪装成蜘蛛的刮板

我一直在我们的日志中跟踪一些蜘蛛，我在他们的 ip 上做了一个跟踪路由，以发现它们实际上是 EC2 实例。用户代理被列为 Google bot 和 msnbot，但它们不是 Google 或 MS ip。有什么我可以做的吗，欺骗用户代理是一种常见的做法吗？我猜如果我禁止他们的 ip（我已经这样做了），他们只会启动一个新实例并继续。不过，我不想禁止所有 EC2 实例。

Answer 1

Sha*_*den 5

当你真正开始钻研日志时，你会发现大量的机器人在做header spoofing；他们中的大多数人伪装成 IE（其中一些人没有成功；打字错误会让您的代理字符串快速被发现！）。

有一个有趣的 EFF 实验，它着眼于使用浏览器提供的数据唯一地识别用户：Panopticlick。在应用程序级别收集更多信息以尝试阻止可能会让您到达某个地方，因为非浏览器节点将无法返回其中一些字段。

但是，同样的道理，阻止他们的 IP 不太可能长期有效，如果他们决心对您进行蜘蛛网攻击，那么尝试基于用户代理（或任何其他独特标准）进行阻止也不太可能长期有效。最后，尝试阻止网络上的每个流氓机器人并不值得您花费时间或精力；只需设置您的 robots.txt 文件，留意那些试图用 SQL 注入或类似方法攻击您的讨厌的文件，然后就可以轻松休息了。

归档时间：	14 年，11 月前
查看次数：	777 次
最近记录：	14 年，11 月前