为谷歌机器人抓取工具提供不同的页面

jk1*_*990 3 indexing seo bots googlebot google-crawlers

我有一个 SPA,里面有很多图像。我想将这些图像公开给搜索引擎。所以我想创建只有机器人才能看到的“特殊”页面。这些页面将包含有关图像的元数据。

是否可以让 googlebot 抓取一个页面,但将其索引为另一页面?

vsy*_*ync 5

您可以设置一个只有 Google 机器人才能看到的页面。

怎么运行的:

您基本上设置了一个类似于客户端浏览器的服务器,它“位于”提供 HTML 和资源(JS/CSS/图像)的“真实服务器”与 Crawler Bot 之间。该服务器称为预渲染服务器,它仅将数据发送给机器人,而不是真正的客户端,因为它有自己的 URL,可以映射以使用它。该 URL 与您的任何页面的 URL 类似,但在末尾添加了一些特殊内容(可能)。

渲染ready服务器的行为就像一个浏览器,因此只有当页面准备好时才会解析 Javascript(在调用所有 ajax 并且内容已“解决”之后,您需要在代码中的某个位置小心触发命令)down”,并且只有当调用该命令时,预渲染服务器才会将内容转发给机器人,因此机器人会看到一个“静态页面”,“用勺子喂给它”。

在此输入图像描述

https://developers.google.com/webmasters/ajax-crawling/docs/learn-more#what-the-user-sees-what-the-crawler-sees

为了使您的 AJAX 应用程序可抓取,您的网站需要遵守新协议。本协议基于以下内容:

  1. 该网站采用AJAX爬行方案。

  2. 对于每个具有动态生成内容的 URL,您的服务器会提供一个 HTML 快照,这是用户(使用浏览器)看到的内容。通常,此类 URL 是 AJAX URL,即包含哈希片段的 URL,例如 www.example.com/index.html#key=value,其中 #key=value 是哈希片段。HTML 快照是执行 JavaScript 后页面上出现的所有内容。

  3. 搜索引擎对 HTML 快照进行索引,并在搜索结果中提供原始 AJAX URL。


这项技术的设置并不容易,但它是可能的。

  • 建议这样做 - https://webmasters.googleblog.com/2015/10/deprecating-our-ajax-crawling-scheme.html 引用:*如果您预渲染页面,请确保提供给 Googlebot 的内容匹配用户的体验,包括外观和交互方式。向 Googlebot 提供与普通用户所看到的内容不同的内容被视为伪装,并且违反我们的网站站长指南。* (4认同)