来自用户代理 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的非法流量 Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)

Question

来自用户代理 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的非法流量 Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)

use*_*293 31 website web mobile-devices useragent

这是一个瞬息万变的事件，目前还没有答案。

请不要发布您的发现或假设作为答案；保留答案字段以供您实际获得答案时使用。

如果您有新内容要添加，请直接将其编辑到问题中。

自今年年初以来，我通过用户代理获得了大量流量：

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

我的访问日志显示 40% - 60% 来自该用户代理。这很奇怪，因为用户代理声明了 Firefox 3.0.10 浏览器（有人在 2012 年使用该浏览器吗？绝对不是普通网站上 40%-60% 的访问者）。

此外，日志显示该用户代理仅请求 HTML 文档，没有引用图像、css、js 文件等资源。

我检查了这些请求的 IP（使用该 UA）。它来自世界各地。我认识到这些 IP 有时具有移动用户代理。

所以我怀疑是一个正在执行大量“蜘蛛请求”的移动应用程序。最好知道来自该用户代理的流量的根本原因。

任何人都可以找出根本原因吗？

在过去的几周里，我们意识到来自该 UA 的流量下降了，而其他流量却增加了。看起来机器人/爬虫现在使用的是更常见的 UA，因此更难阻止。我看到有人在回答这个问题时这么说，但是当 serverfault 决定重新安排这个问题时，它被删除了。

旧答案作为参考

来自Dee 的更新

我运行着自己的流量非常高的网站，我在上个月左右的 apache 日志中看到了完全相同的内容（我还没有机会进一步检查）。所有请求的 40% 是我看到的百分比，这显然很疯狂。

而且我还注意到请求似乎总是说请求浏览器不支持 gzip 压缩 - 导致所有网页请求都未经压缩发送，我们的带宽使用量激增！

但到目前为止，我一直无法确定到底发生了什么——到目前为止，我怀疑它可能是某种代理服务器，或者用于发送虚假用户代理字符串的移动设备。

编辑添加：只是做了一些更多的研究，看起来它可能是防病毒软件：http : //www.webmasterworld.com/search_engine_spiders/4428772.htm

来自jamur21 的更新

是的，我们注意到跨多个站点的类似流量。

我们仍在寻找根本原因，但我们的一些发现包括：

如果它是一只蜘蛛，它的工作就很糟糕。它似乎在一段时间内（可能几个小时）对每个域只敲击一个或两个 URL，直到它移动到另一个 URL。然而，内容总是相对“最新”的，这使谷歌新闻成为一个因素，正如 Dee 在他/她的回答中发布的链接所假定的那样（我们所有的网站都是新闻网站）。
虽然 IP 在地理上是分散的，但对我们来说，它们中的大多数似乎都位于原始站点附近（我们的大多数站点都是本地新闻媒体，因此它们没有大量的全国流量）。几乎没有一个请求来自美国以外。再一次，这为从 Google 新闻中获取的 URL 提供了可信度（我猜已经通过邮政编码本地化了 Google 新闻的人会看到我们的内容）。
大多数情况下，请求可以作为背景噪音注销（尽管噪音特别大），但每天有几次我们会出现峰值，仅此 UA 就会占用约 100mbps 的流量，持续约 15-30 分钟。
不幸的是，虽然谷歌新闻似乎是这些 URL 被发现的可能载体，但我们所看到的一切都是间接的，而且我们仍然没有任何确切的证据来说明这些 URL 是如何或为什么被攻击的。

班诺湾更新

我们有大型新闻网站 - 我们的故事每周都会被 Google 新闻多次收录。自 11 月下旬以来，我们一直从这个来源获得流量 - 并且每周都在增长 - 2 月份可能有 3000 万次展示。

出现在 Google News US 的首页是这种流量的触发因素 - 大约 75% 声称来自美国 IP。但无论它是什么，都在努力掩盖自己。这并不友好。

我们也没有发现确凿的证据——但一家主要的安全供应商已同意代表我们进行进一步调查。

来自Artem Russakovskii 的更新

刚刚在新闻网站 (AndroidPolice.com) 上第一次发生了同样的事情。大约 10 分钟的这些随机请求使 QPS 超过了我们的平均值（5000qps，这是 Linode 的 NodeBalancer 的限制）的 5000% 以上。当请求耗尽 I/O 和网络时，CPU 开始空闲 - 这是一个真正的 DDOS。

我真的很想深入了解这件事，但目前这似乎完全令人费解。

马克更新

只需添加一个+1。我们在我们的网站上看到了相同的行为。这里不需要添加大量新信息，但这里是我们流量的一般形状：

交通高度分散。流量来自超过约 6 万个唯一 IP。
绝大多数流量都访问单个 URL，通常是 Google 新闻中列出的最近 URL（尽管 Google 新闻并不总是显示为向量）
所有这些流量都来自本主题中提到的同一个 Firefox/3.0.10 用户代理，尽管我们在这里和那里看到了一些奇怪的移动代理。
来自此代理的所有流量都不包含引用数据。
爆发每周发生一次或两次，持续 30-60 分钟，然后消失。

来自唐爱尔兰的更新

最后一个帖子是 4 月 13 日，但流量肯定还没有结束。其中最奇怪的部分可能是，任何称职的恶意软件作者肯定（肯定会）使用来自现代浏览器的用户代理字符串，这使得阻止用户代理防御毫无价值。这一事实使得看起来好像“无害”的新闻聚合器或其他应用程序是来源。不过，到目前为止，我也无法得出任何真正的结论，希望有信息的人将其发布在这里。

我们看到了相同的模式，谷歌新闻选择了一个故事，随后请求该故事的流量激增（但不是图像等附件文件）。出站响应流量会导致峰值，这可能会使网络饱和（或者确实如此，直到我们开始仅以 503 错误响应）。这些攻击（我们还能叫什么？）平均持续大约 30 分钟，但非常受欢迎的故事可能会有一个小时或更长时间的高流量（我说的是 Firefox 3.0.10 流量，当然正常流量也仍然很高一阵子）。

在一小时内（对于负载平衡组中的单个服务器），我们看到 200,000 个请求，其中 97,000 个是 firefox 3.0.10 请求，几乎占所有请求的 50%。当您考虑到通常一个页面会生成 10 个或更多对主文件和辅助文件的请求时，97,000 个显得更大。我注意到在这 97,000 个 IP 地址中，有 51,000 个唯一的 IP 地址。我说的是一个小时（实际上接近 45 分钟）。造成这种情况的原因非常普遍。

来自用户119708 的更新

我们在一个巨大的法国高科技新闻网站上遇到了同样的问题。

每当新闻在 google 新闻上发布和查看时，新闻的流量都会大大增加，IP 和用户代理“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的访问量大约为 50 到 100 ) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”。

所有 IP 地址似乎都位于法国或法国国家/地区，并且没有引用。它似乎是一个机器人，但为什么一个远程地址必须在几分钟内针对同一新闻返回 50 或 100 次？会不会是电脑被感染？为什么在谷歌新闻上看到新闻时会出现这种现象？谷歌是否应对这种奇怪的流量负责？

如果有人在这个话题中找到了解释，我想这将有助于许多中大型网站控制他们的流量！

编辑：http : //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 如果它确实是被感染的计算机，考虑到所涉及的地址数量，这是非常令人担忧的。我们将为 Apache 实现此脚本以阻止所有流量：

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Run Code Online (Sandbox Code Playgroud)

埃内斯托的更新

中西班牙综合新闻网站，几天以来注意到一些无关新闻的高流量。

无论是谁，它都会加载完整的 HTML，正如我们注意到的那样，由于“页面查看”计数，我们在加载页面后通过数据库更新而增加。

我们每天只会注意到一两个目标网址。

在几秒钟内通过同一 URL 的大量请求 (7000-12000)，在一天内从不同的 IP 分布。接下来几天定位其他网址。

没有推荐人。

所针对的文章出现在 Google 新闻上，但我们不能保证它是相关的。

Google Analytics 不会将其识别为合法流量。我们有超过 8000 次点击的文章，而 GA 只报告了 25 次左右（我假设它没有被解释为 javascript）。

从旧 Pro更新

为您添加一些数据点。

Bots vs. Browsers并不认为这个 UA 是一个机器人（目前）。

在我拥有日志的流量最高的站点上，2012 年 5 月迄今为止的使用情况显示该 UA 不到流量的 1%。UA 请求的很大一部分看起来是合法的（例如，加载所有预期的资源）。这与 2012 年 2 月基本相同。

本网站首页很少更新，所有动态内容都被robots.txt屏蔽。

这很可能来自 Genieo。他们更新了他们的应用程序以使用新的用户代理：Mozilla/5.0+（兼容；+Genieo/1.0+ http://www.genieo.com/webfilter.html）。它以与原始用户代理相同的模式命中，但现在他们似乎可以识别自己。如果您查看他们的用户代理中的 URL，他们甚至承认他们可能已经或可能仍在为某些网站产生过多的流量。-缺陷

Mike Fagan 的更新

数周以来，我们一直在与我们假设的 DDOS 攻击作斗争。我们刚刚开始将 Genieo 视为这些攻击的用户代理。以前我们看到“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”和大量来自“ Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0"。10k 多个不同的 IP，每天多达 100 万个请求，只有 3 或 4 个页面，其中相同的 IP 请求页面 100 多次，并且没有提取任何额外的资产或广告。我的发现是，这些 IP 实际上都没有访问过我们网站上的任何其他页面。

我联系了 Genieo，这是他们的回应：

“感谢您与我们联系。

旧版本的 Genieo 可能导致您描述的流量负载。对此造成的任何不便，我们深表歉意。我们昨天发布并更新了解决此问题的方法，来自我们应用程序的数据加载应该会在接下来的 24 小时内逐渐消失。我们相信通过向新用户介绍您的网站，我们为您的网站提供了良好的服务。我们没有正确评估随着我们的安装基础不断增长，它可能会导致某些站点过载。

Genieo 是个人报纸或智能 RSS 阅读器。它是具有智能语义个性化过滤的客户端 RSS 阅读器。Genieo 应用程序通过执行语义分析来跟踪来自用户最喜欢的站点的 RSS 数据“阅读”文章，并根据用户感兴趣的领域对其进行过滤。如果文章符合用户的兴趣，应用程序会在用户主页中显示文章的标题和片段。单击标题将转到文章的站点 - 您的站点。Genieo 代理是自主的（出于隐私原因）；它在最终用户机器上运行，这就是为什么您会看到代理从许多不同的 IP 访问您的站点。

大多数 Genieo 数据来自用户的常规 RSS 提要，但 Genieo 还添加了一些来自用户以前未注册的新新闻站点的内容（出于偶然性和多样性）。Genieo 算法会查找“热门”文章、Twitter 热门文章、YouTube 观看次数最多和 Google 新闻精选，并检查它们是否符合用户的兴趣

我们不知道这会导致某些站点出现负载问题。一旦引起我们的注意，我们就会使用新版本更新当前用户，以防止负载峰值。

此致，

-刀坦

PS：我们过去确实使用过“Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0”（由于技术错误），但所有当前的 Genieo 用户都应该使用 Genieo 用户代理（对于最近几周）”

Answer 1

use*_*293 1

我认为用户 dflaw 发现了它。这是 Genieo 的软件。我们做了一些测试并联系了他们。所有结果均在此发布。

归档时间：	13 年，11 月前
查看次数：	6027 次
最近记录：	13 年，7 月前