来自用户代理 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的非法流量 Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)

use*_*293 31 website web mobile-devices useragent

这是一个瞬息万变的事件,目前还没有答案。

请不要发布您的发现或假设作为答案;保留答案字段以供您实际获得答案时使用。

如果您有新内容要添加,请直接将其编辑到问题中。


自今年年初以来,我通过用户代理获得了大量流量:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

我的访问日志显示 40% - 60% 来自该用户代理。这很奇怪,因为用户代理声明了 Firefox 3.0.10 浏览器(有人在 2012 年使用该浏览器吗?绝对不是普通网站上 40%-60% 的访问者)。

此外,日志显示该用户代理仅请求 HTML 文档,没有引用图像、css、js 文件等资源。

我检查了这些请求的 IP(使用该 UA)。它来自世界各地。我认识到这些 IP 有时具有移动用户代理。

所以我怀疑是一个正在执行大量“蜘蛛请求”的移动应用程序。最好知道来自该用户代理的流量的根本原因。

任何人都可以找出根本原因吗?

在过去的几周里,我们意识到来自该 UA 的流量下降了,而其他流量却增加了。看起来机器人/爬虫现在使用的是更常见的 UA,因此更难阻止。我看到有人在回答这个问题时这么说,但是当 serverfault 决定重新安排这个问题时,它被删除了。

旧答案作为参考


来自Dee 的更新

我运行着自己的流量非常高的网站,我在上个月左右的 apache 日志中看到了完全相同的内容(我还没有机会进一步检查)。所有请求的 40% 是我看到的百分比,这显然很疯狂。

而且我还注意到请求似乎总是说请求浏览器不支持 gzip 压缩 - 导致所有网页请求都未经压缩发送,我们的带宽使用量激增!

但到目前为止,我一直无法确定到底发生了什么——到目前为止,我怀疑它可能是某种代理服务器,或者用于发送虚假用户代理字符串的移动设备。

编辑添加:只是做了一些更多的研究,看起来它可能是防病毒软件:http : //www.webmasterworld.com/search_engine_spiders/4428772.htm


来自jamur21 的更新

是的,我们注意到跨多个站点的类似流量。

我们仍在寻找根本原因,但我们的一些发现包括:

  • 如果它是一只蜘蛛,它的工作就很糟糕。它似乎在一段时间内(可能几个小时)对每个域只敲击一个或两个 URL,直到它移动到另一个 URL。然而,内容总是相对“最新”的,这使谷歌新闻成为一个因素,正如 Dee 在他/她的回答中发布的链接所假定的那样(我们所有的网站都是新闻网站)。

  • 虽然 IP 在地理上是分散的,但对我们来说,它们中的大多数似乎都位于原始站点附近(我们的大多数站点都是本地新闻媒体,因此它们没有大量的全国流量)。几乎没有一个请求来自美国以外。再一次,这为从 Google 新闻中获取的 URL 提供了可信度(我猜已经通过邮政编码本地化了 Google 新闻的人会看到我们的内容)。

  • 大多数情况下,请求可以作为背景噪音注销(尽管噪音特别大),但每天有几次我们会出现峰值,仅此 UA 就会占用约 100mbps 的流量,持续约 15-30 分钟。

  • 不幸的是,虽然谷歌新闻似乎是这些 URL 被发现的可能载体,但我们所看到的一切都是间接的,而且我们仍然没有任何确切的证据来说明这些 URL 是如何或为什么被攻击的。


班诺湾更新

我们有大型新闻网站 - 我们的故事每周都会被 Google 新闻多次收录。自 11 月下旬以来,我们一直从这个来源获得流量 - 并且每周都在增长 - 2 月份可能有 3000 万次展示。

出现在 Google News US 的首页是这种流量的触发因素 - 大约 75% 声称来自美国 IP。但无论它是什么,都在努力掩盖自己。这并不友好。

我们也没有发现确凿的证据——但一家主要的安全供应商已同意代表我们进行进一步调查。


来自Artem Russakovskii 的更新

刚刚在新闻网站 (AndroidPolice.com) 上第一次发生了同样的事情。大约 10 分钟的这些随机请求使 QPS 超过了我们的平均值(5000qps,这是 Linode 的 NodeBalancer 的限制)的 5000% 以上。当请求耗尽 I/O 和网络时,CPU 开始空闲 - 这是一个真正的 DDOS。

我真的很想深入了解这件事,但目前这似乎完​​全令人费解。


马克更新

只需添加一个+1。我们在我们的网站上看到了相同的行为。这里不需要添加大量新信息,但这里是我们流量的一般形状:

  1. 交通高度分散。流量来自超过约 6 万个唯一 IP。
  2. 绝大多数流量都访问单个 URL,通常是 Google 新闻中列出的最近 URL(尽管 Google 新闻并不总是显示为向量)
  3. 所有这些流量都来自本主题中提到的同一个 Firefox/3.0.10 用户代理,尽管我们在这里和那里看到了一些奇怪的移动代理。
  4. 来自此代理的所有流量都不包含引用数据。
  5. 爆发每周发生一次或两次,持续 30-60 分钟,然后消失。

来自唐爱尔兰的更新

最后一个帖子是 4 月 13 日,但流量肯定还没有结束。其中最奇怪的部分可能是,任何称职的恶意软件作者肯定(肯定会)使用来自现代浏览器的用户代理字符串,这使得阻止用户代理防御毫无价值。这一事实使得看起来好像“无害”的新闻聚合器或其他应用程序是来源。不过,到目前为止,我也无法得出任何真正的结论,希望有信息的人将其发布在这里。

我们看到了相同的模式,谷歌新闻选择了一个故事,随后请求该故事的流量激增(但不是图像等附件文件)。出站响应流量会导致峰值,这可能会使网络饱和(或者确实如此,直到我们开始仅以 503 错误响应)。这些攻击(我们还能叫什么?)平均持续大约 30 分钟,但非常受欢迎的故事可能会有一个小时或更长时间的高流量(我说的是 Firefox 3.0.10 流量,当然正常流量也仍然很高一阵子)。

在一小时内(对于负载平衡组中的单个服务器),我们看到 200,000 个请求,其中 97,000 个是 firefox 3.0.10 请求,几乎占所有请求的 50%。当您考虑到通常一个页面会生成 10 个或更多对主文件和辅助文件的请求时,97,000 个显得更大。我注意到在这 97,000 个 IP 地址中,有 51,000 个唯一的 IP 地址。我说的是一个小时(实际上接近 45 分钟)。造成这种情况的原因非常普遍。


来自用户119708 的更新

我们在一个巨大的法国高科技新闻网站上遇到了同样的问题。

每当新闻在 google 新闻上发布和查看时,新闻的流量都会大大增加,IP 和用户代理“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的访问量大约为 50 到 100 ) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”。

所有 IP 地址似乎都位于法国或法国国家/地区,并且没有引用。它似乎是一个机器人,但为什么一个远程地址必须在几分钟内针对同一新闻返回 50 或 100 次?会不会是电脑被感染?为什么在谷歌新闻上看到新闻时会出现这种现象?谷歌是否应对这种奇怪的流量负责?

如果有人在这个话题中找到了解释,我想这将有助于许多中大型网站控制他们的流量!

编辑:http : //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 如果它确实是被感染的计算机,考虑到所涉及的地址数量,这是非常令人担忧的。我们将为 Apache 实现此脚本以阻止所有流量:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Run Code Online (Sandbox Code Playgroud)

埃内斯托的更新

中西班牙综合新闻网站,几天以来注意到一些无关新闻的高流量。

无论是谁,它都会加载完整的 HTML,正如我们注意到的那样,由于“页面查看”计数,我们在加载页面后通过数据库更新而增加。

我们每天只会注意到一两个目标网址。

在几秒钟内通过同一 URL 的大量请求 (7000-12000),在一天内从不同的 IP 分布。接下来几天定位其他网址。

没有推荐人。

所针对的文章出现在 Google 新闻上,但我们不能保证它是相关的。

Google Analytics 不会将其识别为合法流量。我们有超过 8000 次点击的文章,而 GA 只报告了 25 次左右(我假设它没有被解释为 javascript)。


旧 Pro更新

为您添加一些数据点。

Bots vs. Browsers并不认为这个 UA 是一个机器人(目前)。

在我拥有日志的流量最高的站点上,2012 年 5 月迄今为止的使用情况显示该 UA 不到流量的 1%。UA 请求的很大一部分看起来是合法的(例如,加载所有预期的资源)。这与 2012 年 2 月基本相同。

本网站首页很少更新,所有动态内容都被robots.txt屏蔽。


这很可能来自 Genieo。他们更新了他们的应用程序以使用新的用户代理:Mozilla/5.0+(兼容;+Genieo/1.0+ http://www.genieo.com/webfilter.html)。它以与原始用户代理相同的模式命中,但现在他们似乎可以识别自己。如果您查看他们的用户代理中的 URL,他们甚至承认他们可能已经或可能仍在为某些网站产生过多的流量。-缺陷


Mike Fagan 的更新

数周以来,我们一直在与我们假设的 DDOS 攻击作斗争。我们刚刚开始将 Genieo 视为这些攻击的用户代理。以前我们看到“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”和大量来自“ Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0"。10k 多个不同的 IP,每天多达 100 万个请求,只有 3 或 4 个页面,其中相同的 IP 请求页面 100 多次,并且没有提取任何额外的资产或广告。我的发现是,这些 IP 实际上都没有访问过我们网站上的任何其他页面。

我联系了 Genieo,这是他们的回应:

“感谢您与我们联系。

旧版本的 Genieo 可能导致您描述的流量负载。对此造成的任何不便,我们深表歉意。我们昨天发布并更新了解决此问题的方法,来自我们应用程序的数据加载应该会在接下来的 24 小时内逐渐消失。我们相信通过向新用户介绍您的网站,我们为您的网站提供了良好的服务。我们没有正确评估随着我们的安装基础不断增长,它可能会导致某些站点过载。

Genieo 是个人报纸或智能 RSS 阅读器。它是具有智能语义个性化过滤的客户端 RSS 阅读器。Genieo 应用程序通过执行语义分析来跟踪来自用户最喜欢的站点的 RSS 数据“阅读”文章,并根据用户感兴趣的领域对其进行过滤。如果文章符合用户的兴趣,应用程序会在用户主页中显示文章的标题和片段。单击标题将转到文章的站点 - 您的站点。Genieo 代理是自主的(出于隐私原因);它在最终用户机器上运行,这就是为什么您会看到代理从许多不同的 IP 访问您的站点。

大多数 Genieo 数据来自用户的常规 RSS 提要,但 Genieo 还添加了一些来自用户以前未注册的新新闻站点的内容(出于偶然性和多样性)。Genieo 算法会查找“热门”文章、Twitter 热门文章、YouTube 观看次数最多和 Google 新闻精选,并检查它们是否符合用户的兴趣

我们不知道这会导致某些站点出现负载问题。一旦引起我们的注意,我们就会使用新版本更新当前用户,以防止负载峰值。

此致,

-刀坦

PS:我们过去确实使用过“Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0”(由于技术错误),但所有当前的 Genieo 用户都应该使用 Genieo 用户代理(对于最近几周)”

use*_*293 1

我认为用户 dflaw 发现了它。这是 Genieo 的软件。我们做了一些测试并联系了他们。所有结果均在此发布。