标签: googlebot

Googlebot不尊重Robots.txt

出于某种原因,当我查看Google网站站长工具的"分析robots.txt"以查看我们的robots.txt文件阻止了哪些网址时,这不是我所期待的.以下是我们文件开头的代码段:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Run Code Online (Sandbox Code Playgroud)

对于Googlebot和Mediapartners-Google,脚本文件夹中的任何内容都已正确阻止.我可以看到这两个机器人正在看到正确的指令,因为Googlebot表示脚本被阻止在第7行,而Mediapartners-Google被阻止在第4行.但是我从第二个用户下的不允许的网址中输入了任何其他网址-agent指令未被阻止!

我想知道我的评论或使用绝对网址是否搞砸了......

任何见解都表示赞赏.谢谢.

robots.txt googlebot

6
推荐指数
1
解决办法
2623
查看次数

游标+分页和SEO

我想知道是否可以使用游标进行分页并同时保持这些页面针对SEO进行优化.

/page/1
/page/2
Run Code Online (Sandbox Code Playgroud)

使用偏移量,向谷歌机器人提供有关深度的一些信息,而不是curor的情况:

/page/4wd3TsiqEIbc4QTcu9TIDQ
/page/5Qd3TvSUF6Xf4QSX14mdCQ
Run Code Online (Sandbox Code Playgroud)

我应该只将它们用作参数吗?

/page?c=5Qd3TvSUF6Xf4QSX14mdCQ
Run Code Online (Sandbox Code Playgroud)

seo pagination googlebot cursor

6
推荐指数
1
解决办法
339
查看次数

Googlebot和"隐藏"内容在页面内动态显示(基于js的)标签 - 对SERPS的影响?

假设有人在页面中"合法地"隐藏了内容.

要进一步解释这一点,请想象以下内容:

<div id="tab-one">This is the content inside tab one</div>
<div id="tab-two">This is the content inside tab two</div>
<a href="javascript:void(0);" onclick="document.getElementById('tab-one').style.display='block';document.getElementById('tab-two').style.display='none';">Tab one</a>
<a href="javascript:void(0);" onclick="document.getElementById('tab-one').style.display='none';document.getElementById('tab-two').style.display='block';">Tab two</a>
Run Code Online (Sandbox Code Playgroud)

从seo的角度来看,假设没有这样做是为了操纵谷歌.事实上,"tab two"包含无垃圾邮件,相关数据,这对seo有何影响?

请问googlebot索引,并将"隐藏"内容整合为页面内容的一部分?

它是否会像使用javacscript时在页面上"可见"内容一样使用此内容?

谢谢.

seo googlebot

6
推荐指数
1
解决办法
4517
查看次数

Googlebot无法解释的32个字符的十六进制附加字符串,每天导致超过20,000个404错误

我有一个非常有趣的问题,我没有解释.

每隔2到6秒googlebot(我查了googlebots IP,它真实的东西[使用主机IP ])请求我们网站上的页面(运行:php,apache,mongodb)不存在(404s).没有其他机器人或人类曾经请求过这样的页面!只是googlebot.

请求每个看起来像这样:

/ 2de4f853c2853807b2e72387aa8928a4

/ ea5700c343d1a9798bc554af7c1a330e

/ e5aafa102d54ba7517703336846cc019

我们的代码不使用任何32个char字符串,也没有类似我们网站内部或外部的链接.我们使用codeigniter,所以起初我以为它是默认的session_id,我已经检查过,但事实并非如此.

有没有人见过这样的东西?我们的网站在某些页面上使用history.push,这可能导致它吗?只是一个想法.

示例请求的原始数据:

array (
  'date' => '2012-12-01',
  'time' => '10:01:33 PM',
  'additional_data' => 
    array (
      'server_vars' => 
        array (
          'REDIRECT_STATUS' => '200',
          'HTTP_HOST' => 'www.xxxxxxx.com',
          'HTTP_ACCEPT' => '*/*',
          'HTTP_ACCEPT_ENCODING' => 'gzip,deflate',
          'HTTP_FROM' => 'googlebot(at)googlebot.com',
          'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
          'HTTP_X_FORWARDED_FOR' => 'xxxxxxx',
          'HTTP_X_FORWARDED_PORT' => '80',
          'HTTP_X_FORWARDED_PROTO' => 'http',
          'HTTP_CONNECTION' => 'keep-alive',
          'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin',
          'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address>
',
          'SERVER_SOFTWARE' …
Run Code Online (Sandbox Code Playgroud)

php apache googlebot codeigniter

6
推荐指数
1
解决办法
452
查看次数

Googlebot会抓取对使用JavaScript制作的DOM的更改吗?

对于SEO,我的任务是添加rel="nofollow"到所有外部链接*.

添加rel="nofollow"到每个外部链接的最简单和最不突兀的方式是使用一些jQuery.我做得很好,但我现在想知道:

Google是否看到jQuery文档加载到DOM(例如这个)时所做的更改,还是只看到原始源代码?

我不想讨论为什么这是一个坏主意.这是一个SEO顾问的决定,我已经了解到,除非实施他们最新的心血来潮需要花费太多时间才能满足他们的需求

seo jquery googlebot web-crawler

6
推荐指数
1
解决办法
2386
查看次数

Google没有抓取AngularJS应用程序中的链接

我有一个注入第三方网站的AngularJS应用程序.它将动态内容注入第三方页面的div.Google正在成功为此动态内容编制索引,但似乎并未抓取动态内容中的链接.链接在动态内容中看起来像这样:

<a href="http://www.example.com/support?title=Example Title&titleId=12345">Link Here</a>
Run Code Online (Sandbox Code Playgroud)

我正在使用链接的查询参数而不是实际的url结构,如:

http://www.example.com/support/title/Example Title/titleId/12345
Run Code Online (Sandbox Code Playgroud)

我必须使用查询参数,因为我不希望第三方网站必须更改其Web服务器配置以重定向不正确的URL.

单击链接时,我使用$ locationService更新浏览器中的URL,然后我的角度应用程序响应相应的响应.主要是基于查询参数显示相关内容,设置页面标题和元描述.

我读过的很多文章都使用angularJS和模板中的路由提供程序,但我不确定为什么这会对爬虫产生影响?

我已经读过google应该将带有查询参数的网址视为单独的网页,因此我不认为这应该是问题:https: //webmasters.googleblog.com/2008/09/dynamic-urls-vs-static-urls. HTML

我没有尝试过的唯一事情是1.提供带有查询参数的网址的站点地图,以及2.将其他页面的静态链接添加到动态链接以帮助谷歌发现这些页面.

任何帮助,想法或见解将不胜感激.

javascript seo googlebot angularjs

6
推荐指数
1
解决办法
2200
查看次数

"Fetch as Google"不会在使用CloudFront的S3上加载React路由

我在Amazon S3上有一个react-router站点,设置了404重定向到index.html,在那里他们找到了他们需要的代码,并且站点做了它应该做的事情.

在Google网站站长工具中,其中一条路线的"抓取为Google"会显示错误状态:未找到.

我使用自定义错误响应(404到200,响应页面路径/index.html)为该源设置了Cloudfront.

但其中一条路线的"抓取为Google"仍显示错误状态:未找到.

在Chrome或curl中,当我加载http:// [bucketname] .s3-website-us-west-2.amazonaws.com/list/listname/username时,我看到404,但页面会按预期加载.

但是当我加载http:// [randomchars] .cloudfront.net/list/listname/username时,我看到200没有重定向,页面按预期加载.

我已经提交了一个站点地图,其中包含我要编入索引的相关网址,并要求Google抓取该网站.它尚未被抓取,但我现在最好的希望是我看到的一些建议"Fetch as Google"不会遵循重定向,而Googlebot会在它实际抓取网站时.我希望情况确实如此,但如果我错过任何其他显而易见的事情,我很想知道.提前致谢!

googlebot amazon-s3 amazon-web-services amazon-cloudfront react-router

6
推荐指数
1
解决办法
453
查看次数

如何获得Google bot上次访问该页面的时间?

我有以下函数来获取googlebot的最后访问日期:

//get googlebot last access
function googlebot_lastaccess($domain_name)
{
    $request = 'http://webcache.googleusercontent.com/search?hl=en&q=cache:'.$domain_name.'&btnG=Google+Search&meta=';
    $data = getPageData($request);
    $spl=explode("as it appeared on",$data);
   //echo "<pre>".$spl[0]."</pre>";
    $spl2=explode(".<br>",$spl[1]);
    $value=trim($spl2[0]);
   //echo "<pre>".$spl2[0]."</pre>";
    if(strlen($value)==0)
    {
        return(0);
    }
    else
    {
        return($value);
    }      
} 

echo "Googlebot last access = ".googlebot_lastaccess($domain_name)."<br />"; 

function getPageData($url) {
 if(function_exists('curl_init')) {
 $ch = curl_init($url); // initialize curl with given url
 curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // add useragent
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // write the response to a variable
 if((ini_get('open_basedir') == '') && (ini_get('safe_mode') == 'Off')) {
 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, …
Run Code Online (Sandbox Code Playgroud)

php googlebot

5
推荐指数
1
解决办法
1433
查看次数

google如何抓取动态页面?

我即将为我的一位客户创建一个在线购物网站。我必须使这个网站 SEO 友好,因此在继续制作基于 CMS 的自定义网站之前,我必须了解一些事情。

\n\n

正如我所说,我将制作一个基于 CMS 的自定义网站,以便我的客户能够通过 CMS 添加新内容,但我不明白一些事情。

\n\n

例如:我有一个index.php页面,其中有许多指向不同产品的链接,所有这些链接都是使用 PHP 通过数据库创建的。网站链接如

\n\n

http://www.def.com/shoes/Men-Shoes

\n\n

我的问题:

\n\n

1)我想知道当GoogleBot爬行我的网站时,它还会打开我动态创建的链接并为其建立索引吗?将要GoogleBot索引我的动态链接的内容吗?

\n\n

2) 我是否必须为网站上的所有产品创建单独的页面并将它们存储在我的服务器上?或者只是一个根据用户对每种产品的查询动态提供服务的页面?

\n\n

我读了这个

\n\n

“它的功能很像你的网络浏览器,通过向网络服务器发送网页请求,下载整个页面,然后将其交给 Google\xe2\x80\x99s 索引器。”

\n\n

这样对吗?

\n\n

我上面的查询实际上看起来像这样,我使用 .htaccess 文件使其变得漂亮

\n\n

http://www.def.com/shoes.php?type=男鞋

\n\n

那么谷歌是否会将其抓取到索引?

\n

php seo search-engine googlebot

5
推荐指数
1
解决办法
5658
查看次数

更正 nginx 配置以防止索引某些文件夹

我使用以下Nginx配置来防止在使用x-robots tag

location ~ .*/(?:archive|filter|topic)/.* {
    add_header X-Robots-Tag "noindex, follow";      
}
Run Code Online (Sandbox Code Playgroud)

内容保持索引,但我无法调试Nginx配置。

我的问题:我使用的配置是否正确,我是否应该等到 googlebot 重新抓取内容并对内容取消索引?还是我的配置有问题?

googlebot nginx

5
推荐指数
1
解决办法
7523
查看次数