使用多个存储库为 github 页面编写 robots.txt 的最佳方法是什么?

Xia*_* Qi 5 sitemap robots.txt jekyll github-pages

我正在使用 Github 页面和 Jekyll 构建我的个人网站。我在仓库中有一个头站点username.github.io,在projectA仓库中有一个项目 A 站点,在projectB仓库中有一个项目 B 站点,依此类推。我已在存储库CNAME下放置了一个文件username.github.io,以便我的所有站点都位于自定义域名 ( www.mydomain.com) 下。我注意到,当robots.txt文件指向sitemap.txt每个存储库下的文件时,sitemap.txt只能包含每个单独存储库中页面的页面链接。所以,我有几个问题:

  1. 由于我的网站的结构为www.mydomain.com、等www.mydomain.com/projectAwww.mydomain.com/projectB与单个存储库中的页面相对应,搜索引擎是否会识别我的所有网站页面,即使sitemap.txtheadusername.github.io存储库仅具有在单个存储库中生成的页面链接?

  2. 在我的情况下写入robots.txt文件的最佳方法是什么?

谢谢!齐

Dav*_*uel 1

放在哪里 简短的回答是:在 Web 服务器的顶级目录中。 资料来源: http: //www.robotstxt.org/robotstxt.html

您还可以在Google 文档中看到www.mydomain.com/folder/robots.txt 网址不会被抓取。

基本的 www.mydomain.com/robots.txt 可以是:

User-agent: *
Run Code Online (Sandbox Code Playgroud)

这将指示爬网程序通过以下链接遍历所有 www.mydomain.com 文件层次结构。

如果 www.mydomain.com 没有页面引用您的项目页面,您可以添加:

User-agent: *
allow: /ProjectA
allow: /projectB
Run Code Online (Sandbox Code Playgroud)