多个站点地图:robots.txt中的条目?

use*_*942 37 sitemap robots.txt

我一直在搜索谷歌,但我找不到这个问题的答案.

robots.txt文件可以包含以下行:

Sitemap: http://www.mysite.com/sitemapindex.xml
Run Code Online (Sandbox Code Playgroud)

但是是否可以在robots.txt中指定多个站点地图索引文件并让搜索引擎识别并抓取每个站点地图索引文件中引用的所有站点地图?例如,这会工作:

Sitemap: http://www.mysite.com/sitemapindex1.xml

Sitemap: http://www.mysite.com/sitemapindex2.xml

Sitemap: http://www.mysite.com/sitemapindex3.xml
Run Code Online (Sandbox Code Playgroud)

小智 81

是的,可以有多个sitemap-index-file:

您可以拥有多个 Sitemap索引文件.

我的亮点.

是的,可以在其中列出多个站点地图文件robots.txt,请参阅sitemap.org网站:

您可以为每个robots.txt文件指定多个 Sitemap文件.

Sitemap: http://www.example.com/sitemap-host1.xml

Sitemap: http://www.example.com/sitemap-host2.xml
Run Code Online (Sandbox Code Playgroud)

我强调,这不能被误读,所以简单地说,这可以做到.

对于交叉提交,这也是必要的,顺便说一句.该robots.txt已被选定.

Btw Google,YahooBing都是sitemaps.org的成员:

网站地图0.90根据Attribution-ShareAlike Creative Commons License的条款提供,并得到广泛采用,包括Google,Yahoo!和Microsoft的支持.

因此,您可以放心,搜索引擎机器人会正确阅读您的站点地图条目.

通过网站管理员工具提交它们也不会受到影响 - 正如John Mueller 评论的那样.

  • 谷歌 robots.txt 文档证实了这一点对谷歌来说是正确的,并提到它也应该适用于其他机器人:“可能存在多个站点地图条目。作为非组成员记录,这些与任何特定用户无关-代理并且可能会被所有爬虫跟踪,前提是它不被禁止。” 可以在此处找到 Google robots.txt 文档:https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt (2认同)

sco*_*ott 8

如果您的站点地图超过10 MB(未压缩)或超过5万个条目,则Google要求您使用与站点地图索引文件捆绑在一起的多个站点地图.

在您的robots.txt中指向站点地图索引,该索引应如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2012-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2012-01-01</lastmod>
   </sitemap>
</sitemapindex>
Run Code Online (Sandbox Code Playgroud)

  • 嗯,不完全是。来自 http://www.sitemaps.org/protocol.php:“每个文本文件最多可以包含 50,000 个 URL,并且不得超过 10MB(10,485,760 字节)。” (2认同)
  • 此后,Google已将每个站点地图文件的允许大小增加到50MB http://stackoverflow.com/questions/2887358/limitation-for-google-sitemap-xml-file-size (2认同)
  • 站点地图会更好吗:在机器人中指向sitemapindex.xml还是有多个站点地图:指向每个站点地图的行? (2认同)

Eta*_*ron -4

可以编写它们,但由搜索引擎决定如何处理它们。我怀疑许多搜索引擎要么“不断消化”越来越多的标记,要么将他们找到的最后一个站点地图作为真实的站点地图。

我建议问题是“如果我想要 ____ 搜索引擎索引我的网站,我是否能够定义多个站点地图?”