标签: googlebot

FOR EXAMPLE: 

// im Using Zend Framework 
//Default URL for threads is

http://domain.com/Movies/Action/page/3/  

// I changed this URL for better SEO to 

http://domain.com/ActionMovies/pagenumber

Run Code Online (Sandbox Code Playgroud)

请建议我使用谷歌BOT更友好的分页URL的结构应该是什么.

我应该在URL中使用URI查询符号(？,&),像这样

http://domain.com/movies=action&page=3 
http://domain.com/movies=action
http://domain.com/movies=drama

// OR

http://domain.com/ActionMovies/3/

// OR

http://domain.com/Movies/Action/page/3

Run Code Online (Sandbox Code Playgroud)

seo googlebot google-webmaster-tools

luc*_*man

lucky-day

2
推荐指数

1
解决办法

4869
查看次数

使用哪种编程语言是Googlebot(或任何其他高效的网络爬虫)？

有谁知道Googlebot是用哪种编程语言编写的？

或者,更一般地说,哪种语言是高效的网络爬虫？

我见过许多Java语言,但在我看来,开发网络爬虫并不是最合适的语言,因为它会产生太多的开销(尝试使用Heritrix网络爬虫,而且非常繁重).

googlebot web-crawler

Enr*_*oma

lucky-day

1
推荐指数

1
解决办法

5215
查看次数

如何在为用户提供用户友好内容的同时为谷歌返回适当的404？

我在这里和超级用户之间发帖.如果您觉得这不属于此,请原谅.

我正在观察此处描述的行为- Googlebot正在我的网站上请求随机网址,例如aecgeqfx.html或sutwjemebk.html.我确信我没有从我网站上的任何地方链接这些网址.

我怀疑这可能是谷歌探讨我们如何处理不存在的内容 - 引用链接问题的答案:

 [google is requesting random urls to] see if your site correctly 
 handles non-existent files (by returning a 404 response header)

Run Code Online (Sandbox Code Playgroud)

我们有一个针对不存在的内容的自定义页面 - 一个风格的页面,上面写着"内容未找到,如果您认为自己错误,请与我们联系",并提供一些内部链接,自然地提供了一个200 OK.URL直接提供(不重定向到单个URL).

我担心这可能会歧视谷歌的网站 - 他们可能不会将用户友好页面解释为,404 - not found并且可能认为我们正试图伪造某些内容并提供重复内容.

我应该如何确保谷歌不会认为该网站是虚假的,同时向用户提供用户友好的消息,以防他们偶然点击死链接？

seo webserver googlebot http-status-code-404

Mar*_*rek

2017 04-13

1
推荐指数

1
解决办法

6429
查看次数

你能在Heroku上部署Watir来生成HTML快照吗？如果是这样,怎么样？

我想使用在Heroku上托管的Watir生成HTML快照.

Google 制作AJAX应用程序的完整规范Crawlable建议使用HTMLUnit ...请参阅如何创建HTML快照？第3点.

HtmlUnit是一个仅限Java的无头浏览器模拟器; 不幸的是,jRuby不是Heroku的选项.所以HtmlUnit被排除了(据我所知).

如果你感兴趣我还有另外一个问题,关于HtmlUnit作为托管在Google App Engine上的服务...... 让AJAX应用程序可以抓取吗？如何在Google App Engine上构建简单的Web服务来生成HTML快照？......仍在等待一个经过验证的例子/答案.

hosting googlebot heroku watir headless-browser

Chr*_*cob

2017 05-23

1
推荐指数

1
解决办法

1584
查看次数

如何防止搜寻器跟踪链接？

我正在建立一个网站，允许卖家：

在我的网站上列出他们的产品
让每个产品链接回到卖家的网站
为每个链接点击付费

我现在需要做的是确保以某种方式确保只记录了指向卖方站点链接的实际人类用户。如果它是爬网的机器人，那我就不应该向卖方收费。

我有办法告诉机器人不要遵循某个链接吗？我认为这nofollow并不是要阻止对内容的访问。

html seo bots googlebot

Sta*_*bie

lucky-day

1
推荐指数

1
解决办法

3034
查看次数

Google Apps 脚本机器人每分钟重复抓取网站

就在一个小时前，我启动了tailingapache日志文件（访问日志），从那时起，我注意到这个奇怪的用户代理（无法在Google的官方文档中找到它）。

我对此感到怀疑，因为我在 Google 网站上找不到有关此用户代理的任何内容，

("Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html))

Run Code Online (Sandbox Code Playgroud)

它一整天、每分钟都在抓取我们网站的登录页面。

这是日志片段：

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET / HTTP/1.1" 302 639 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"

72.14.199.55 - - [07/Aug/2013:16:06:28 +0000] "GET /accounts/login/ HTTP/1.1" 200 3780 "-" "Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)"

Run Code Online (Sandbox Code Playgroud)

而且一直是同一个IP。而现在仍然如此，

这种爬行模式常见吗？

googlebot web-crawler google-apps-script

Vir*_*put

2013 09-11

1
推荐指数

1
解决办法

3457
查看次数

如果href页面包含包含noindex和nofollow的漫游器元标记,是否需要向链接添加nofollow rel属性？

如果我有一个带有元标记的页面("dontFollowMe.html"):

< meta  name = "robots"  content = "noindex, nofollow"  / >

Run Code Online (Sandbox Code Playgroud)

......我链接到那个页面......

我是否需要将nofollow rel属性包含在a元素中？:

<a href="dontFollowMe.html" rel="nofollow">sign in</a>

Run Code Online (Sandbox Code Playgroud)

谢谢

html meta seo googlebot nofollow

use*_*224

lucky-day

1
推荐指数

1
解决办法

1858
查看次数

为什么我的ColdFusion页面会向搜索引擎返回一个空白页面？

我已经完成了大量的ASP.NET和PHP开发,但我不太熟悉如何在CF中跟踪这类事情.我天真的第一个攻击角度是在任何源代码中搜索对Google的任何引用.没运气.

我在IIS7上运行该站点.谷歌,必应和雅虎在我的网站上显然都"看不见".

更新:我在Googlebot上运行Fetch并获得以下信息:

HTTP/1.1 200 OK
Transfer-Encoding: chunked
Content-Type: text/html; charset=UTF-8
Server: Microsoft-IIS/7.0
Set-Cookie: CFID=1638251;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFTOKEN=35688222;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: LANGUAGEID=1;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
Set-Cookie: CFGLOBALS=urltoken%3DCFID%23%3D1638251%26CFTOKEN%23%3D35688222%23lastvisit%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23timecreated%3D%7Bts%20%272010%2D04%2D22%2008%3A51%3A41%27%7D%23hitcount%3D2%23cftoken%3D35688222%23cfid%3D1638251%23;expires=Sat, 14-Apr-2040 15:51:41 GMT;path=/
X-Powered-By: ASP.NET
Date: Thu, 22 Apr 2010 15:51:40 GMT

Run Code Online (Sandbox Code Playgroud)

coldfusion seo googlebot

Lar*_*nal

2010 04-22

0
推荐指数

1
解决办法

566
查看次数

Googlebot正在抓取我的网站并在我的评分系统上输入评分

我的评分系统允许匿名用户添加评分,但Google的抓取工具正在对评分进行评级.

如何确保Googlebot不会关注该链接？

googlebot web-crawler

meo*_*hia

2010 10-20

0
推荐指数

1
解决办法

334
查看次数

PHP警告:preg_match()[function.preg-match]:未知的修饰符

任何人都知道为什么会出现这种情况？尝试使用此方法根据用户代理重定向用户.当用户代理是搜索机器人时,会出现此警告.Windows XP MSIE 8用户代理也被错误地重定向.

"警告:preg_match()[function.preg-match]:第36行/.../getos.php中的未知修饰符'c'"

function getOS($userAgent) {
  $oses = array (
    'iPhone' => '(iPhone)',
    'iPad' => 'iPad',
    'Android' => 'Android',
    'Windows 3.11' => 'Win16',
    'Windows 95' => '(Windows 95)|(Win95)|(Windows_95)', // Use regular expressions as value to identify operating system
    'Windows 98' => '(Windows 98)|(Win98)',
    'Windows 2000' => '(Windows NT 5.0)|(Windows 2000)',
    'Windows XP' => '(Windows NT 5.1)|(Windows XP)',
    'Windows 2003' => '(Windows NT 5.2)',
    'Windows Vista' => '(Windows NT 6.0)|(Windows Vista)',
    'Windows 7' => '(Windows NT 6.1)|(Windows 7)',
    'Windows …

Run Code Online (Sandbox Code Playgroud)

php internet-explorer windows-xp googlebot internet-explorer-8

Squ*_*Roe

2011 09-27

0
推荐指数

1
解决办法

1333
查看次数