Unk*_*ech 102
的robots.txt
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
这将阻止所有搜索机器人编制索引.
有关详细信息,请参阅:http://www.google.com/support/webmasters/bin/answer.py?hl = zh-CN& answer = 40360
Kar*_*rol 83
我必须在这里添加我的答案,因为已接受的答案并没有真正触及问题.另请注意,阻止Google抓取并不意味着您可以将内容保密.
我的回答基于以下几个来源:https ://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -indexing ---排名
robots.txt文件控制抓取,但不编制索引!这两个是完全不同的动作,分开执行.某些页面可能已被抓取但未编入索引,有些页面甚至可能已编入索引但从未被抓取过.其他网站上可能存在指向未抓取网页的链接,这会让Google索引器跟踪它,并尝试编制索引.
问题是关于正在收集有关页面数据的索引,因此可以通过搜索结果获得.可以阻止添加元标记:
<meta name="robots" content="noindex" />
Run Code Online (Sandbox Code Playgroud)
或者向响应中添加HTTP标头:
X-Robots-Tag: noindex
Run Code Online (Sandbox Code Playgroud)
如果问题是关于爬行,那么当然你可以创建robots.txt文件并放下以下行:
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
抓取是为收集有关某个特定网站结构的信息而执行的操作.例如,您已通过Google网站站长工具添加了该网站.Crawler会将其记录下来,并访问您的网站,搜索robots.txt.如果它没有找到任何内容,那么它将假设它可以抓取任何内容(拥有sitemap.xml文件也非常重要,以帮助进行此操作,并指定优先级并定义更改频率).如果找到该文件,它将遵循规则.成功抓取后,它会在某些时候为抓取的网页运行索引,但是你无法判断...
重要提示:这意味着您的网页仍然可以在Google搜索结果中显示,无论如何robots.txt.
我希望至少有些用户会读到这个答案,并明确说明,因为了解实际情况至关重要.
小智 8
有多种方法可以阻止抓取工具,包括 Google 停止抓取您的网站并将其编入索引。
在服务器级别通过标头
Header set X-Robots-Tag "noindex, nofollow"
Run Code Online (Sandbox Code Playgroud)
通过 robots.txt 文件在根域级别
User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)
在页面级别通过机器人元标记
<meta name="robots" content="nofollow" />
Run Code Online (Sandbox Code Playgroud)
但是,我必须说,如果您的网站已过时且不存在页面/网址,那么您应该等待一段时间,Google 会在下一次抓取中自动对这些网址取消索引 - 阅读https://support.google.com/webmasters/answer/1663419?hl =zh
| 归档时间: |
|
| 查看次数: |
54291 次 |
| 最近记录: |