Robots.txt:仅允许主要SE

22 robots.txt web-crawler

有没有办法配置robots.txt,以便网站只接受来自谷歌,雅虎的访问!和MSN蜘蛛?

Noa*_*ahD 32

__PRE__

Slurp是雅虎的机器人

  • 谷歌,MSN和雅虎还有其他你可能想要"允许"的蜘蛛(例如msnbot-media,bingbot).此外,bingbot是我在我操作的网站的日志中看到的最多的微软蜘蛛. (2认同)

der*_*ert 18

为什么?

任何做坏事的人(例如,将电子邮件地址收集到垃圾邮件中)都会忽略robots.txt.因此,您只会阻止合法搜索引擎,因为robots.txt合规性是自愿的.

但是 - 如果你仍然坚持这样做 - 那就是User-Agent:robots.txt中的那条线.

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

当然,您还可以使用所有其他搜索引擎的线路.Robotstxt.org有一个部分列表.

  • 我不得不不同意,问题是,有很多即将到来的玩家,这给带宽带来了太大的压力,特别是如果你有一个每天有数千个新链接的大型网站......那么你可能想要摆脱那些几乎没有进行 1% 的互联网搜索,而是选择大 3 (3认同)
  • “对于只有大公司刮我的网站我才是好的”,这对规模较小,有前途的公司不利。我希望我能支持你的“为什么?” 一千倍。我的意思是,如果您对当前的状况感到满意,即所有人都在Google的掌控之中,那么请务必排除所有其他爬虫。 (2认同)