标签: googlebot

如何告诉谷歌机器人某些链接不再存在

在网站的最初几天,我在生成一些链接时犯了一个错误; 跟随它们输出数据库错误.

谷歌机器人已尝试关注这些链接,现在它们在网站管理员工具中显示为抓取错误.虽然我已经纠正了错误,谷歌仍然试图抓取它们.

如何告诉Google这些链接不再存在,并且它们导致无处可去?我不能做一个301重定向原因,可以说链接是有效的,可以索引它们.

seo googlebot web-crawler

2
推荐指数
1
解决办法
1398
查看次数

PHP脚本检测浏览器语言,google bot怎么样?

我正在开发一个可以使用两种语言(英语和法语)的网站.我创建了一个脚本,用$ _SERVER ['HTTP_ACCEPT_LANGUAGE']检测浏览器语言,并根据结果加载一个xml文件,其中写入了所有文本.我想知道这是否是搜索引擎优化的问题,因为我猜谷歌机器人将获得英文版但不是法国版?谢谢

php seo googlebot

2
推荐指数
1
解决办法
1189
查看次数

谷歌不会在s3上阅读我的robots.txt

由于谷歌正在抓取我们的静态内容(存储在s3上),我们在根目录(存储桶)中创建了一个robots.txt ..如下

User-agent: *
Disallow: / 
Run Code Online (Sandbox Code Playgroud)

现在,因为我们想要从谷歌搜索中删除现有内容..我们在谷歌网站管理员a/c中添加了桶..并要求删除目录

现在问题是谷歌不会识别或读取robots.txt(这需要将来阻止谷歌块)..我们在网站管理员工具中收到此消息


此网站不位于域的顶级.robots.txt文件仅在位于最高级别目录中时有效,并且适用于域中的所有目录.适用于您网站的robots.txt文件(如果存在)位于http://s3.amazonaws.com/robots.txt.此页面提供有关该文件的信息.

robots.txt googlebot web-crawler amazon-s3

2
推荐指数
1
解决办法
6391
查看次数

SEO友好的分页结构

我有1到1700页每页包含20个主题.我从谷歌网站管理员博客阅读关于SEO友好分页的教程使用rel ='next'和rel ='prev'属性.

但我的分页网址应该如何更好的搜索引擎优化.

FOR EXAMPLE: 

// im Using Zend Framework 
//Default URL for threads is

http://domain.com/Movies/Action/page/3/  

// I changed this URL for better SEO to 

http://domain.com/ActionMovies/pagenumber 
Run Code Online (Sandbox Code Playgroud)

请建议我使用谷歌BOT更友好的分页URL的结构应该是什么.

我应该在URL中使用URI查询符号(?,&),像这样

http://domain.com/movies=action&page=3 
http://domain.com/movies=action
http://domain.com/movies=drama

// OR

http://domain.com/ActionMovies/3/

// OR

http://domain.com/Movies/Action/page/3 
Run Code Online (Sandbox Code Playgroud)

seo googlebot google-webmaster-tools

2
推荐指数
1
解决办法
4869
查看次数

使用哪种编程语言是Googlebot(或任何其他高效的网络爬虫)?

有谁知道Googlebot是用哪种编程语言编写的?

或者,更一般地说,哪种语言是高效的网络爬虫?

我见过许多Java语言,但在我看来,开发网络爬虫并不是最合适的语言,因为它会产生太多的开销(尝试使用Heritrix网络爬虫,而且非常繁重).

googlebot web-crawler

1
推荐指数
1
解决办法
5215
查看次数

如何在为用户提供用户友好内容的同时为谷歌返回适当的404?

我在这里和超级用户之间发帖.如果您觉得这不属于此,请原谅.

我正在观察此处描述的行为- Googlebot正在我的网站上请求随机网址,例如aecgeqfx.htmlsutwjemebk.html.我确信我没有从我网站上的任何地方链接这些网址.

我怀疑这可能是谷歌探讨我们如何处理不存在的内容 - 引用链接问题的答案:

 [google is requesting random urls to] see if your site correctly 
 handles non-existent files (by returning a 404 response header)
Run Code Online (Sandbox Code Playgroud)

我们有一个针对不存在的内容的自定义页面 - 一个风格的页面,上面写着"内容未找到,如果您认为自己错误,请与我们联系",并提供一些内部链接,自然地提供了一个200 OK.URL直接提供(不重定向到单个URL).

我担心这可能会歧视谷歌的网站 - 他们可能不会将用户友好页面解释为,404 - not found并且可能认为我们正试图伪造某些内容并提供重复内容.

我应该如何确保谷歌不会认为该网站是虚假的,同时向用户提供用户友好的消息,以防他们偶然点击死链接?

seo webserver googlebot http-status-code-404

1
推荐指数
1
解决办法
6429
查看次数

你能在Heroku上部署Watir来生成HTML快照吗?如果是这样,怎么样?

我想使用在Heroku上托管的Watir生成HTML快照.

Google 制作AJAX应用程序完整规范Crawlable建议使用HTMLUnit ...请参阅如何创建HTML快照?第3点.

HtmlUnit是一个仅限Java的无头浏览器模拟器; 不幸的是,jRuby不是Heroku的选项.所以HtmlUnit被排除了(据我所知).

如果你感兴趣我还有另外一个问题,关于HtmlUnit作为托管在Google App Engine上的服务...... 让AJAX应用程序可以抓取吗?如何在Google App Engine上构建简单的Web服务来生成HTML快照?......仍在等待一个经过验证的例子/答案.

hosting googlebot heroku watir headless-browser

1
推荐指数
1
解决办法
1584
查看次数

如何防止搜寻器跟踪链接?

我正在建立一个网站,允许卖家:

  • 在我的网站上列出他们的产品
  • 让每个产品链接回到卖家的网站
  • 为每个链接点击付费

我现在需要做的是确保以某种方式确保只记录了指向卖方站点链接的实际人类用户。如果它是爬网的机器人,那我就不应该向卖方收费。

我有办法告诉机器人不要遵循某个链接吗?我认为这nofollow并不是要阻止对内容的访问。

html seo bots googlebot

1
推荐指数
1
解决办法
3034
查看次数

Google Apps 脚本机器人每分钟重复抓取网站

就在一个小时前,我启动了tailingapache日志文件(访问日志),从那时起,我注意到这个奇怪的用户代理(无法在Google的官方文档中找到它)。

我对此感到怀疑,因为我在 Google 网站上找不到有关此用户代理的任何内容,

("Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html))
Run Code Online (Sandbox Code Playgroud)

它一整天、每分钟都在抓取我们网站的登录页面。

这是日志片段:

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET / HTTP/1.1" 302 639 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET /accounts/login/ HTTP/1.1" 200 3780 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"
Run Code Online (Sandbox Code Playgroud)

而且一直是同一个IP。而现在仍然如此,

这种爬行模式常见吗?

googlebot web-crawler google-apps-script

1
推荐指数
1
解决办法
3457
查看次数

如果href页面包含包含noindex和nofollow的漫游器元标记,是否需要向链接添加nofollow rel属性?

如果我有一个带有元标记的页面("dontFollowMe.html"):

< meta  name = "robots"  content = "noindex, nofollow"  / >
Run Code Online (Sandbox Code Playgroud)

......我链接到那个页面......

我是否需要将nofollow rel属性包含在a元素中?:

<a href="dontFollowMe.html" rel="nofollow">sign in</a>  
Run Code Online (Sandbox Code Playgroud)

谢谢

html meta seo googlebot nofollow

1
推荐指数
1
解决办法
1858
查看次数

为什么我的ColdFusion页面会向搜索引擎返回一个空白页面?

我已经完成了大量的ASP.NET和PHP开发,但我不太熟悉如何在CF中跟踪这类事情.我天真的第一个攻击角度是在任何源代码中搜索对Google的任何引用.没运气.

我在IIS7上运行该站点.谷歌,必应和雅虎在我的网站上显然都"看不见".

更新:我在Googlebot上运行Fetch并获得以下信息:

HTTP/1.1 200 OK
Transfer-Encoding: chunked
Content-Type: text/html; charset=UTF-8
Server: Microsoft-IIS/7.0
Set-Cookie: CFID=1638251;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFTOKEN=35688222;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: LANGUAGEID=1;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFGLOBALS=urltoken%3DCFID%23%3D1638251%26CFTOKEN%23%3D35688222%23lastvisit%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23timecreated%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23hitcount%3D2%23cftoken%3D35688222%23cfid%3D1638251%23;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
X-Powered-By: ASP.NET
Date: Thu, 22 Apr 2010 15:51:40 GMT
Run Code Online (Sandbox Code Playgroud)

coldfusion seo googlebot

0
推荐指数
1
解决办法
566
查看次数

Googlebot正在抓取我的网站并在我的评分系统上输入评分

我的评分系统允许匿名用户添加评分,但Google的抓取工具正在对评分进行评级.

如何确保Googlebot不会关注该链接?

googlebot web-crawler

0
推荐指数
1
解决办法
334
查看次数

PHP警告:preg_match()[function.preg-match]:未知的修饰符

任何人都知道为什么会出现这种情况?尝试使用此方法根据用户代理重定向用户.当用户代理是搜索机器人时,会出现此警告.Windows XP MSIE 8用户代理也被错误地重定向.

"警告:preg_match()[function.preg-match]:第36行/.../getos.php中的未知修饰符'c'"

function getOS($userAgent) {
  $oses = array (
    'iPhone' => '(iPhone)',
    'iPad' => 'iPad',
    'Android' => 'Android',
    'Windows 3.11' => 'Win16',
    'Windows 95' => '(Windows 95)|(Win95)|(Windows_95)', // Use regular expressions as value to identify operating system
    'Windows 98' => '(Windows 98)|(Win98)',
    'Windows 2000' => '(Windows NT 5.0)|(Windows 2000)',
    'Windows XP' => '(Windows NT 5.1)|(Windows XP)',
    'Windows 2003' => '(Windows NT 5.2)',
    'Windows Vista' => '(Windows NT 6.0)|(Windows Vista)',
    'Windows 7' => '(Windows NT 6.1)|(Windows 7)',
    'Windows …
Run Code Online (Sandbox Code Playgroud)

php internet-explorer windows-xp googlebot internet-explorer-8

0
推荐指数
1
解决办法
1333
查看次数