GitHub Pages和Jekyll内容重复和SEO问题

guy*_*sey 4 seo github jekyll canonical-link

我正在使用GitHub Pages托管我的博客,并使用Jekyll演示它。

大概,我所做的任何事情都会<yourname>.github.io通过Jekyll并以https://github.com/<yourname>/<yourname>.github.io原始形式出现。请参阅此页面,其中显示了指向活动站点以及用于构建活动站点的源存储库的链接

有关SEO的建议表明,在域内和跨域复制内容是不好的SEO做法。有关重复的信息,请参见此Google支持页面;有关重复的问题,请参见此Moz页面;这两种方法也都提供了可能的解决方案。

我的问题有两个:

  • 实际上,内容复制实际上是GitHub Pages的问题吗?
  • 如果是这样,一个人如何应用规范链接或noindex到GitHub存储库之类的解决方案,以便搜索引擎知道您的Jekyll网站就是规范站点?

更新:

可能值得注意的是,我已将“ hello world”索引文件上传到我的GitHub Pages存储库,然后在GitHub上检查了该页面的源代码。GitHub源代码已经包含一个规范链接

<link rel="canonical" href="https://github.com/guypursey/guypursey.github.io/blob/master/index.html" data-pjax-transient>
Run Code Online (Sandbox Code Playgroud)

我认为正是这种情况,每个文件都需要更改以指向站点的Jekyll版本,但是我看不到GitHub中的设置来处理它。

小智 5

如果存储库是公共的,则在与用户和组织一起使用GitHub Pages时,不可避免会有重复的内容

一般来说,这应该不是问题。请参阅先前的答案

您确实有两种选择:

  • Google和其他搜索引擎显然无法访问需要付费计划的私有存储库。
  • 切换到项目页面。这将使用gh-pages分支而不是master分支。由于GitHub的robots.txt仅允许搜索引擎抓取master分支,而不允许其他分支。因此,如果站点在gh-pages分支中,则将阻止Google查看存储库。