我有两个关于爬行器和机器人的问题。
\n\n我只想将 Google 和 Bing 排除在 \xe2\x80\x9cdisallow\xe2\x80\x9d 和 \xe2\x80\x9cnoindex\xe2\x80\x9d 限制之外。换句话说,我希望除 Google 和 Bing 之外的所有搜索引擎都遵循 \xe2\x80\x9cdisallow\xe2\x80\x9d 和 \xe2\x80\x9cnoindex\xe2\x80\x9d 规则。另外,我还想要一个用于我提到的搜索引擎的 \xe2\x80\x9cnosnippet\xe2\x80\x9d 功能(它们都支持 \xe2\x80\x9cnosnippet\xe2\x80\x9d)。我应该使用哪些代码来执行此操作(同时使用 robots.txt 和 X-Robots-Tag)?
\n\n我希望将其作为 X-Robots-Tag 包含在 robots.txt 文件和 htacess 文件中。我知道 robots.txt 可能已经过时,但我希望向爬虫提供清晰的说明,即使它们 \xe2\x80\x99re 被视为 \xe2\x80\x9cin effective\xe2\x80\x9d 和 \xe2\x80\x9coutdated\xe2\ x80\x9d 除非你另有想法。
\n\n我是否正确地获取了以下代码,仅允许 Google 和 Bing 建立索引(以防止其他搜索引擎在其结果中显示),并进一步阻止 Bing 和 Google 在其搜索结果中显示片段?
\n\nX-Robots-Tag 代码(这是正确的吗?我认为我不需要向 googlebot 和 bingbot 添加“index”,因为“index”是默认值,但不确定。)
\n\n\n\nX-Robots-Tag: googlebot: nosnippet\nX-Robots-Tag: bingbot: nosnippet\nX-Robots-Tag: otherbot: noindex\nRun Code Online (Sandbox Code Playgroud)\n\nrobots.txt 代码(这是正确的吗?我认为第一个是,但不确定。)
\n\n User-agent: Googlebot\n …Run Code Online (Sandbox Code Playgroud)