Robots.txt:仅允许主要SE

Question

有没有办法配置robots.txt,以便网站只接受来自谷歌,雅虎的访问!和MSN蜘蛛？

Answer 1

__PRE__

Slurp是雅虎的机器人

谷歌,MSN和雅虎还有其他你可能想要"允许"的蜘蛛(例如msnbot-media,bingbot).此外,bingbot是我在我操作的网站的日志中看到的最多的微软蜘蛛. (2认同)

Answer 2

为什么？

任何做坏事的人(例如,将电子邮件地址收集到垃圾邮件中)都会忽略robots.txt.因此,您只会阻止合法搜索引擎,因为robots.txt合规性是自愿的.

但是 - 如果你仍然坚持这样做 - 那就是User-Agent:robots.txt中的那条线.

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然,您还可以使用所有其他搜索引擎的线路.Robotstxt.org有一个部分列表.

我不得不不同意，问题是，有很多即将到来的玩家，这给带宽带来了太大的压力，特别是如果你有一个每天有数千个新链接的大型网站......那么你可能想要摆脱那些几乎没有进行 1% 的互联网搜索，而是选择大 3 (3认同)
“对于只有大公司刮我的网站我才是好的”，这对规模较小，有前途的公司不利。我希望我能支持你的“为什么？” 一千倍。我的意思是，如果您对当前的状况感到满意，即所有人都在Google的掌控之中，那么请务必排除所有其他爬虫。 (2认同)