Googlebot无法解释的32个字符的十六进制附加字符串,每天导致超过20,000个404错误

Ron*_*per 6 php apache googlebot codeigniter

我有一个非常有趣的问题,我没有解释.

每隔2到6秒googlebot(我查了googlebots IP,它真实的东西[使用主机IP ])请求我们网站上的页面(运行:php,apache,mongodb)不存在(404s).没有其他机器人或人类曾经请求过这样的页面!只是googlebot.

请求每个看起来像这样:

/ 2de4f853c2853807b2e72387aa8928a4

/ ea5700c343d1a9798bc554af7c1a330e

/ e5aafa102d54ba7517703336846cc019

我们的代码不使用任何32个char字符串,也没有类似我们网站内部或外部的链接.我们使用codeigniter,所以起初我以为它是默认的session_id,我已经检查过,但事实并非如此.

有没有人见过这样的东西?我们的网站在某些页面上使用history.push,这可能导致它吗?只是一个想法.

示例请求的原始数据:

array (
  'date' => '2012-12-01',
  'time' => '10:01:33 PM',
  'additional_data' => 
    array (
      'server_vars' => 
        array (
          'REDIRECT_STATUS' => '200',
          'HTTP_HOST' => 'www.xxxxxxx.com',
          'HTTP_ACCEPT' => '*/*',
          'HTTP_ACCEPT_ENCODING' => 'gzip,deflate',
          'HTTP_FROM' => 'googlebot(at)googlebot.com',
          'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
          'HTTP_X_FORWARDED_FOR' => 'xxxxxxx',
          'HTTP_X_FORWARDED_PORT' => '80',
          'HTTP_X_FORWARDED_PROTO' => 'http',
          'HTTP_CONNECTION' => 'keep-alive',
          'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin',
          'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address>
',
          'SERVER_SOFTWARE' => 'Apache/2.2.22 (Amazon)',
          'SERVER_NAME' => 'www.xxxxxxx.com',
          'SERVER_ADDR' => 'xxxxxxxxxx',
          'SERVER_PORT' => '80',
          'REMOTE_ADDR' => '10.171.147.114',
          'REMOTE_PORT' => '40759',
          'REDIRECT_URL' => '/e5aafa102d54ba7517703336846cc019',
          'GATEWAY_INTERFACE' => 'CGI/1.1',
          'SERVER_PROTOCOL' => 'HTTP/1.1',
          'REQUEST_METHOD' => 'GET',
          'QUERY_STRING' => '',
          'REQUEST_URI' => '/e5aafa102d54ba7517703336846cc019',
          'SCRIPT_NAME' => '/index.php',
          'PATH_INFO' => '/e5aafa102d54ba7517703336846cc019',
          'PATH_TRANSLATED' => 'redirect:/index.php/e5aafa102d54ba7517703336846cc019',
          'PHP_SELF' => '/index.php/e5aafa102d54ba7517703336846cc019',
          'REQUEST_TIME' => 1354428093,
       ),
    'codeigiter_session' => 
      array (
        'session_id' => 'c795e40a279f58d9fbbf7f5501a26787',
        'ip_address' => '10.171.147.114',
        'user_agent' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
        'last_activity' => 1354428093,
        'user_data' => '',
    ),
  ),
)
Run Code Online (Sandbox Code Playgroud)

我还能收集到什么来解决这个问题.这很奇怪.


更新: 流量来自2个主IP地址.10.171.147.11410.161.46.102

我看了这些,他们不是GoogleBot.

我从一个IP查找站点获得了此信息.

请记住,IP地址范围10.0.0.0 - 10.255.255.255,172.16.0.0 - 172.31.255.255,192.168.0.0 - 192.168.255.255和224.0.0.0 - 239.255.255.255是保留的IP地址,用于私人互联网使用和IP查找这些将没有返回任何结果.

我应该/可以对这些要求做些什么?这些要求有什么意义?如果这是一种DOS攻击,那么它们就会做得非常糟糕.

Ron*_*per 1

为了回答这个问题,问题是由 aws 负载均衡器的运行状况检查造成的。由于某种原因,aws 使用 googlebot user_agent 在我们的服务器上执行它们。