我想阻止来自 yandex.ru 搜索机器人的所有请求。它的流量非常大(2GB/天)。我首先阻止了一个 C 类 IP 范围,但这个机器人似乎来自不同的 IP 范围。
例如:
Spider31.yandex.ru -> 77.88.26.27 spider79.yandex.ru -> 95.108.155.251 等等。
我可以在 robots.txt 中加入一些拒绝,但不确定它是否尊重这一点。我正在考虑阻止 IP 范围列表。
有人可以建议一些通用的解决方案。
我们在 Web 服务器上遇到了大量流量和服务器负载。
我所能发现的只是 majestic12 一直在访问页面。
我想知道如何防止 majestic12 索引该站点
他们是否尊重任何 robots.txt 条目,我该如何编写这样的条目?
如果我有一个用于获取消息的 url 并且我像这样创建它:http : //www.mydomain.com/somelonghash123456etcetc并且这个 URL 允许其他服务向 POST 消息。搜索引擎机器人有可能找到它吗?我不想在我的 robots.txt 中包含它,因为这会将它暴露给任何看到机器人文件的人。
当然,我会在应用程序中加入其他身份验证,但第一步是不要让任何人发现该 URL。
有什么常用的方法吗?