und*_*ned 6 javascript json web-crawler
我通过 Google 的网站管理员工具发现,Google 正在抓取看起来像是嵌入在<script type="application/json">标签中的 json 中的链接的路径。这个 json 稍后会在客户端解析并使用。
问题是 json 包含不是有效链接的路径,而 Google 将它们视为链接,因此它尝试抓取它们并获得稳定增加的 404 数量,从而增加了不必要的抓取工具流量。
我该怎么做才能阻止谷歌尝试抓取这些路径?我可以向 robots.txt 添加一些模式,但我想确保 google 完全忽略脚本标记的内容,并且不尝试解析它以查找看起来像链接的路径。
试试这个标记:
<!--googleoff: all-->
<script type="application/json">
// your json content here
</script>
<!--googleon: all>
Run Code Online (Sandbox Code Playgroud)
正如这篇文章中所写。
另外还有几篇文章:
准备抓取常见
问题解答 - 如何使用 googleon/googleoff 标签?
附:
对于更安全的方式:如果可能,
尝试使用“即时”生成的内容,例如 ajax 加载。
| 归档时间: |
|
| 查看次数: |
2728 次 |
| 最近记录: |