停止Github页面的索引

use*_*712 14 robots.txt github-pages

我的存储库username.github.io有一个github页面

但是,我不希望谷歌抓取我的网站,绝对不希望它出现在搜索结果上.

只需在github页面中使用robots.txt工作吗?我知道有停止索引Github存储库的教程但是实际的Github页面怎么样?

Gum*_*mbo 15

我不知道它是否仍然相关,但谷歌说你可以用meta标签阻止蜘蛛:

<meta name="robots" content="noindex">
Run Code Online (Sandbox Code Playgroud)

但我不确定这是否适用于所有蜘蛛或谷歌.

  • 当您没有服务器的 root 访问权限时(例如 Github 页面),这非常有用。谢谢@Gumbo! (2认同)

ola*_*uel 8

简短回答:

您可以使用robots.txt通过在用户页面中添加用户GitHub页面来停止对其进行索引.这robots.txt的将是所有的项目页面活动的robots.txt作为该项目的网页可访问的子目录(username.github.io/ 项目在你的子域()的用户名 .github.io).


更长的回答:

您为GitHub页面(username.github.io)获得了自己的子域.根据关于MOZ和googles的这个问题,每个子域都有/需要它自己.robots.txt

这意味着projectname用户的项目的有效/活动robots.txt username位于username.github.io/robots.txt.您可以robots.txt通过为用户创建GitHub页面来放置文件.

这是通过创建一个名为username.github.iowhere username用户名的新项目/存储库来完成的.现在,您可以创建在这个项目/库的主分支robots.txt文件,它应该是在可见的username.github.io/robots.txt.有关项目,用户和组织页面的更多信息,请访问此处.

我已经通过Google对此进行了测试,myusername.github.io通过在我的项目/存储库中放置一个html文件来确认所有权,在https://github.com/myusername/myusername.github.io/tree/master那里创建一个robot.txt文件,然后使用Google搜索控制台网站管理员工具(googlebot-fetch)验证我的robots.txt是否正常工作.谷歌确实将其列为封锁和谷歌的Search Console 网站管理员工具(机器人测试工具)证实了这一点.

阻止一个项目的机器人GitHub页面:

User-agent: *
Disallow: /projectname/
Run Code Online (Sandbox Code Playgroud)

为您的用户阻止所有GitHub页面的机器人(用户页面和所有项目页面):

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

其他选择


Von*_*onC 6

只需在github页面中使用robots.txt工作吗?

如果您使用的是默认的GitHub Pages子域,那么不会,因为Google只会检查https://github.io/robots.txt.

你可以确定 你没有一个master分支,或者您的GitHub库是一个私人的一个,虽然,作为评论olavimmanuel在olavimmanuel的,详细的解答,这不会改变任何事情.

但是,如果您在GitHub Pages网站上使用自定义域,则可以在repo的根目录下放置robots.txt文件,它将按预期工作.使用此模式的一个示例是Bootstrap的repo .

  • 实际上,根据Google的文档,似乎在子域中放置`robots.txt`将[工作](https://developers.google.com/search/reference/robots_txt#examples-of-valid-robotstxt-urls),除非它已经过时了.我注意到很多Web开发人员使用Github Pages和Jekyll创建他们的博客,他们的存储库中有`robots.txt`,即使他们不使用自定义域.我没有证实这是有效的,但似乎证据支持它按预期工作,至少对谷歌的爬虫来说. (3认同)

小智 5

Google 不建议使用 robots.txt 文件来不索引网站(在本例中为 GitHub 页面)。事实上,大多数时候,即使您阻止谷歌机器人,它也会被索引。

相反,您应该在页面标题中添加以下内容,即使您不使用自定义域,这也应该很容易控制。

<meta name='robots' content='noindex,nofollow' />
Run Code Online (Sandbox Code Playgroud)

这将告诉 Google 不要将其编入索引。如果您只阻止谷歌机器人访问您的网站,它仍然会在 90% 的情况下建立索引,只是不会显示元描述。