如何设置一个只允许站点默认页面的robot.txt

Boa*_*oaz 21 robots.txt bots googlebot slurp web-crawler

假设我在http://example.com上有一个网站.我真的很想让机器人看到主页,但是任何其他页面都需要被阻止,因为它对蜘蛛来说毫无意义.换一种说法

http://example.comhttp://example.com/应该被允许的,但 http://example.com/anythinghttp://example.com/someendpoint.aspx应该被阻止.

此外,如果我可以允许某些查询字符串直接进入主页,那将是很棒的:http: //example.com?okparam = true

但不是 http://example.com?anythingbutokparam=true

Boa*_*oaz 49

所以在经过一些研究后,我发现了这一点 - 主要搜索服务提供商可以接受的解决方案:google,yahoo和msn(我可以在这里找到验证器):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
Run Code Online (Sandbox Code Playgroud)

诀窍是使用$来标记URL的结尾.