San*_*mar 6 search-engine bots
我怎样才能抵制那些糟糕的身份不明的机器人抓取我的网站?一些名字在Apache的cPanel中不存在的坏机器人正在严重访问我的网站带宽.
我曾在batgap.com/robots.txt上尝试过robots.txt,并且还使用.htaccess阻止了,但带宽使用情况没有改善.我不知道那些机器人的IP因此无法通过IP地址阻止它们.这些机器人消耗了太多的站点带宽,因此我需要从服务器增加它.
不幸的是,robots.txt 有时会被这些“坏机器人”忽略,但如果问题更多的是您不希望看到的真正的搜索引擎蜘蛛,他们应该考虑到这一点。我想你可以使用 CPanel 进入 Web 服务器(apache)日志吗?在那里您可以查找两件事:IP 和用户代理。您可以在那里找到罪魁祸首并将其添加到您的 robots.txt 和 .htaccess 中。请注意,拒绝 IP 地址的 .htaccess 规则比仅依赖 robots.txt 要好得多,因为您将选择权从机器人创建者手中夺走了。
如果您知道正在执行此操作的特定机器人,您应该能够从论坛获取 IP 地址和用户代理,但如果这是一个更一般的事情,那么实际上恐怕这更多是一项手动工作。
还有其他可以产生不同效果的方法,例如 mod_security (http://www.askapache.com/htaccess/modsecurity-htaccess-tricks.html),但这意味着您必须访问您的 Web 服务器配置。
最后,您可以检查指向您网站的链接(使用 google 上的 link: 选项)。有时,如果您在垃圾邮件论坛或类似网站上有链接,这可能会增加机器人攻击您的机会。也许你可以查看 apache 日志中的引用 URL - 但这都是基于很多假设,如果它有很好的效果,你可能会很幸运。
| 归档时间: |
|
| 查看次数: |
6177 次 |
| 最近记录: |