为什么google发现robots.txt排除了一个页面？

Question

为什么google发现robots.txt排除了一个页面？

Alb*_*chi 3 .htaccess robots.txt web-crawler

我正在使用robots.txt从蜘蛛中排除一些页面.

User-agent: * 
Disallow: /track.php

Run Code Online (Sandbox Code Playgroud)

当我搜索到这个页面的内容时,谷歌说:"由于该网站的robots.txt,因此无法获得此结果的说明 - 了解更多信息."

这意味着robots.txt正在运行..但为什么蜘蛛仍然可以找到该页面的链接？我想没有链接到'track.php'页面...我应该如何设置robots.txt？(或类似.htaccess等等......？)

Answer 1

Jim*_*hel 5

这是发生的事情:

Googlebot在其他页面上看到了track.php的链接.我们将该页面称为"source.html".
Googlebot尝试访问您的track.php文件.
你的robots.txt告诉Googlebot不要读取该文件.

所以Google知道source.html链接到track.php,但它不知道track.php包含什么.你没告诉谷歌不要索引track.php; 你告诉Googlebot不要阅读和索引数据中 track.php.

正如谷歌的文档所说:

虽然Google不会抓取或索引robots.txt阻止的网页内容,但如果我们在网络上的其他网页上找到这些网址,我们仍可能会将其编入索引.因此,页面的URL以及可能的其他公开信息(如网站链接中的锚文本或Open Directory Project(www.dmoz.org)中的标题)可以显示在Google搜索结果中.

你可以做很多事情.对于您自己的页面,您可以使用该文档中描述的x-robots-tag或noindex meta tag.这会阻止Googlebot在您的网页中找到链接时对网址编制索引.但是,如果您不控制的某个页面链接到该track.php文件,那么Google很可能会将其编入索引.

归档时间：	11 年，11 月前
查看次数：	219 次
最近记录：	11 年，11 月前