如何防止谷歌索引 <script type="application/json"> 内容

und*_*ned 6 javascript json web-crawler

我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像是嵌入在<script type="application/json">标签中的 json 中的链接的路径。这个 json 稍后会在客户端解析并使用。

问题是 json 包含不是有效链接的路径,而 Google 将它们视为链接,因此它尝试抓取它们并获得稳定增加的 404 数量,从而增加了不必要的抓取工具流量。

我该怎么做才能阻止谷歌尝试抓取这些路径?我可以向 robots.txt 添加一些模式,但我想确保 google 完全忽略脚本标记的内容,并且不尝试解析它以查找看起来像链接的路径。

Ser*_*yar 4

试试这个标记:

<!--googleoff: all-->
<script type="application/json">
  // your json content here
</script>
<!--googleon: all>
Run Code Online (Sandbox Code Playgroud)

正如这篇文章中所写。

另外还有几篇文章:
准备抓取常见
问题解答 - 如何使用 googleon/googleoff 标签?

附:

对于更安全的方式:如果可能,
尝试使用“即时”生成的内容,例如 ajax 加载。