停止Github页面的索引

这是通过创建一个名为username.github.iowhere username用户名的新项目/存储库来完成的.现在,您可以创建在这个项目/库的主分支robots.txt文件,它应该是在可见的username.github.io/robots.txt.有关项目,用户和组织页面的更多信息,请访问此处.

我已经通过Google对此进行了测试,myusername.github.io通过在我的项目/存储库中放置一个html文件来确认所有权,在https://github.com/myusername/myusername.github.io/tree/master那里创建一个robot.txt文件,然后使用Google搜索控制台网站管理员工具(googlebot-fetch)验证我的robots.txt是否正常工作.谷歌确实将其列为封锁和谷歌的Search Console 网站管理员工具(机器人测试工具)证实了这一点.

阻止一个项目的机器人GitHub页面:

User-agent: *
Disallow: /projectname/

Run Code Online (Sandbox Code Playgroud)

为您的用户阻止所有GitHub页面的机器人(用户页面和所有项目页面):

User-agent: *
Disallow: /

Run Code Online (Sandbox Code Playgroud)

其他选择

查看HTML 元标记
查看GitHub页面的自定义域(重定向)

Answer 3

Von*_*onC 6

只需在github页面中使用robots.txt工作吗？

如果您使用的是默认的GitHub Pages子域,那么不会,因为Google只会检查https://github.io/robots.txt.

你可以确定你没有一个master分支,或者您的GitHub库是一个私人的一个,虽然,作为评论的olavimmanuel在olavimmanuel的,详细的解答,这不会改变任何事情.

但是,如果您在GitHub Pages网站上使用自定义域,则可以在repo的根目录下放置robots.txt文件,它将按预期工作.使用此模式的一个示例是Bootstrap的repo .

实际上,根据Google的文档,似乎在子域中放置`robots.txt`将[工作](https://developers.google.com/search/reference/robots_txt#examples-of-valid-robotstxt-urls),除非它已经过时了.我注意到很多Web开发人员使用Github Pages和Jekyll创建他们的博客,他们的存储库中有`robots.txt`,即使他们不使用自定义域.我没有证实这是有效的,但似乎证据支持它按预期工作,至少对谷歌的爬虫来说. (3认同)

Answer 4

小智 5

Google 不建议使用 robots.txt 文件来不索引网站（在本例中为 GitHub 页面）。事实上，大多数时候，即使您阻止谷歌机器人，它也会被索引。

相反，您应该在页面标题中添加以下内容，即使您不使用自定义域，这也应该很容易控制。

<meta name='robots' content='noindex,nofollow' />

Run Code Online (Sandbox Code Playgroud)

这将告诉 Google 不要将其编入索引。如果您只阻止谷歌机器人访问您的网站，它仍然会在 90% 的情况下建立索引，只是不会显示元描述。

归档时间：	10 年，1 月前
查看次数：	5994 次
最近记录：	6 年，5 月前