标签: search-engine

阻止 yandex.ru bot

我想阻止来自 yandex.ru 搜索机器人的所有请求。它的流量非常大(2GB/天)。我首先阻止了一个 C 类 IP 范围,但这个机器人似乎来自不同的 IP 范围。

例如:

Spider31.yandex.ru -> 77.88.26.27 spider79.yandex.ru -> 95.108.155.251 等等。

我可以在 robots.txt 中加入一些拒绝,但不确定它是否尊重这一点。我正在考虑阻止 IP 范围列表。

有人可以建议一些通用的解决方案。

robots.txt search-engine

5
推荐指数
2
解决办法
1万
查看次数

如果网站没有 robots.txt 文件会怎样?

如果robots.txt文件在网站的根目录中丢失,如何处理:

  1. 该网站根本没有编入索引
  2. 该网站被无任何限制地编入索引

根据我的说法,它在逻辑上应该是第二个。我问这个问题

robots.txt seo indexing search-engine

4
推荐指数
2
解决办法
2万
查看次数

如何防止 Majestic 12 索引站点

我们在 Web 服务器上遇到了大量流量和服务器负载。

我所能发现的只是 majestic12 一直在访问页面。

我想知道如何防止 majestic12 索引该站点

他们是否尊重任何 robots.txt 条目,我该如何编写这样的条目?

search-engine apache-2.2

3
推荐指数
1
解决办法
4706
查看次数

如何防止发现安全 URL?

如果我有一个用于获取消息的 url 并且我像这样创建它:http : //www.mydomain.com/somelonghash123456etcetc并且这个 URL 允许其他服务向 POST 消息。搜索引擎机器人有可能找到它吗?我不想在我的 robots.txt 中包含它,因为这会将它暴露给任何看到机器人文件的人。

当然,我会在应用程序中加入其他身份验证,但第一步是不要让任何人发现该 URL。

有什么常用的方法吗?

security robots.txt web-applications search-engine

3
推荐指数
1
解决办法
181
查看次数