如何阻止不良身份不明的机器人抓取我的网站？

Question

如何阻止不良身份不明的机器人抓取我的网站？

我怎样才能抵制那些糟糕的身份不明的机器人抓取我的网站？一些名字在Apache的cPanel中不存在的坏机器人正在严重访问我的网站带宽.

我曾在batgap.com/robots.txt上尝试过robots.txt,并且还使用.htaccess阻止了,但带宽使用情况没有改善.我不知道那些机器人的IP因此无法通过IP地址阻止它们.这些机器人消耗了太多的站点带宽,因此我需要从服务器增加它.

Answer 1

Leo*_*lis 1

不幸的是，robots.txt 有时会被这些“坏机器人”忽略，但如果问题更多的是您不希望看到的真正的搜索引擎蜘蛛，他们应该考虑到这一点。我想你可以使用 CPanel 进入 Web 服务器（apache）日志吗？在那里您可以查找两件事：IP 和用户代理。您可以在那里找到罪魁祸首并将其添加到您的 robots.txt 和 .htaccess 中。请注意，拒绝 IP 地址的 .htaccess 规则比仅依赖 robots.txt 要好得多，因为您将选择权从机器人创建者手中夺走了。

如果您知道正在执行此操作的特定机器人，您应该能够从论坛获取 IP 地址和用户代理，但如果这是一个更一般的事情，那么实际上恐怕这更多是一项手动工作。

还有其他可以产生不同效果的方法，例如 mod_security (http://www.askapache.com/htaccess/modsecurity-htaccess-tricks.html)，但这意味着您必须访问您的 Web 服务器配置。

最后，您可以检查指向您网站的链接（使用 google 上的 link: 选项）。有时，如果您在垃圾邮件论坛或类似网站上有链接，这可能会增加机器人攻击您的机会。也许你可以查看 apache 日志中的引用 URL - 但这都是基于很多假设，如果它有很好的效果，你可能会很幸运。

归档时间：	14 年，4 月前
查看次数：	6177 次
最近记录：	10 年，10 月前