use*_*712 14 robots.txt github-pages
我的存储库username.github.io有一个github页面
但是,我不希望谷歌抓取我的网站,绝对不希望它出现在搜索结果上.
只需在github页面中使用robots.txt工作吗?我知道有停止索引Github存储库的教程但是实际的Github页面怎么样?
Gum*_*mbo 15
我不知道它是否仍然相关,但谷歌说你可以用meta
标签阻止蜘蛛:
<meta name="robots" content="noindex">
Run Code Online (Sandbox Code Playgroud)
但我不确定这是否适用于所有蜘蛛或谷歌.
您可以使用robots.txt通过在用户页面中添加用户GitHub页面来停止对其进行索引.这robots.txt的将是所有的项目页面活动的robots.txt作为该项目的网页可访问的子目录(username.github.io/ 项目在你的子域()的用户名 .github.io).
您为GitHub页面(username.github.io)获得了自己的子域.根据关于MOZ和googles的这个问题,每个子域都有/需要它自己.robots.txt
这意味着projectname
用户的项目的有效/活动robots.txt username
位于username.github.io/robots.txt
.您可以robots.txt
通过为用户创建GitHub页面来放置文件.
这是通过创建一个名为username.github.io
where username
用户名的新项目/存储库来完成的.现在,您可以创建在这个项目/库的主分支robots.txt文件,它应该是在可见的username.github.io/robots.txt
.有关项目,用户和组织页面的更多信息,请访问此处.
我已经通过Google对此进行了测试,myusername.github.io
通过在我的项目/存储库中放置一个html文件来确认所有权,在https://github.com/myusername/myusername.github.io/tree/master
那里创建一个robot.txt文件,然后使用Google搜索控制台网站管理员工具(googlebot-fetch)验证我的robots.txt是否正常工作.谷歌确实将其列为封锁和谷歌的Search Console 网站管理员工具(机器人测试工具)证实了这一点.
阻止一个项目的机器人GitHub页面:
User-agent: *
Disallow: /projectname/
Run Code Online (Sandbox Code Playgroud)
为您的用户阻止所有GitHub页面的机器人(用户页面和所有项目页面):
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
只需在github页面中使用robots.txt工作吗?
如果您使用的是默认的GitHub Pages子域,那么不会,因为Google只会检查https://github.io/robots.txt
.
你可以确定 你没有一个master
分支,或者您的GitHub库是一个私人的一个,虽然,作为评论的olavimmanuel在olavimmanuel的,详细的解答,这不会改变任何事情.
但是,如果您在GitHub Pages网站上使用自定义域,则可以在repo的根目录下放置robots.txt文件,它将按预期工作.使用此模式的一个示例是Bootstrap的repo .
小智 5
Google 不建议使用 robots.txt 文件来不索引网站(在本例中为 GitHub 页面)。事实上,大多数时候,即使您阻止谷歌机器人,它也会被索引。
相反,您应该在页面标题中添加以下内容,即使您不使用自定义域,这也应该很容易控制。
<meta name='robots' content='noindex,nofollow' />
Run Code Online (Sandbox Code Playgroud)
这将告诉 Google 不要将其编入索引。如果您只阻止谷歌机器人访问您的网站,它仍然会在 90% 的情况下建立索引,只是不会显示元描述。
归档时间: |
|
查看次数: |
5994 次 |
最近记录: |