use*_*293 31 website web mobile-devices useragent
这是一个瞬息万变的事件,目前还没有答案。
请不要发布您的发现或假设作为答案;保留答案字段以供您实际获得答案时使用。
如果您有新内容要添加,请直接将其编辑到问题中。
自今年年初以来,我通过用户代理获得了大量流量:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
我的访问日志显示 40% - 60% 来自该用户代理。这很奇怪,因为用户代理声明了 Firefox 3.0.10 浏览器(有人在 2012 年使用该浏览器吗?绝对不是普通网站上 40%-60% 的访问者)。
此外,日志显示该用户代理仅请求 HTML 文档,没有引用图像、css、js 文件等资源。
我检查了这些请求的 IP(使用该 UA)。它来自世界各地。我认识到这些 IP 有时具有移动用户代理。
所以我怀疑是一个正在执行大量“蜘蛛请求”的移动应用程序。最好知道来自该用户代理的流量的根本原因。
在过去的几周里,我们意识到来自该 UA 的流量下降了,而其他流量却增加了。看起来机器人/爬虫现在使用的是更常见的 UA,因此更难阻止。我看到有人在回答这个问题时这么说,但是当 serverfault 决定重新安排这个问题时,它被删除了。
旧答案作为参考
来自Dee 的更新
我运行着自己的流量非常高的网站,我在上个月左右的 apache 日志中看到了完全相同的内容(我还没有机会进一步检查)。所有请求的 40% 是我看到的百分比,这显然很疯狂。
而且我还注意到请求似乎总是说请求浏览器不支持 gzip 压缩 - 导致所有网页请求都未经压缩发送,我们的带宽使用量激增!
但到目前为止,我一直无法确定到底发生了什么——到目前为止,我怀疑它可能是某种代理服务器,或者用于发送虚假用户代理字符串的移动设备。
编辑添加:只是做了一些更多的研究,看起来它可能是防病毒软件:http : //www.webmasterworld.com/search_engine_spiders/4428772.htm
来自jamur21 的更新
是的,我们注意到跨多个站点的类似流量。
我们仍在寻找根本原因,但我们的一些发现包括:
如果它是一只蜘蛛,它的工作就很糟糕。它似乎在一段时间内(可能几个小时)对每个域只敲击一个或两个 URL,直到它移动到另一个 URL。然而,内容总是相对“最新”的,这使谷歌新闻成为一个因素,正如 Dee 在他/她的回答中发布的链接所假定的那样(我们所有的网站都是新闻网站)。
虽然 IP 在地理上是分散的,但对我们来说,它们中的大多数似乎都位于原始站点附近(我们的大多数站点都是本地新闻媒体,因此它们没有大量的全国流量)。几乎没有一个请求来自美国以外。再一次,这为从 Google 新闻中获取的 URL 提供了可信度(我猜已经通过邮政编码本地化了 Google 新闻的人会看到我们的内容)。
大多数情况下,请求可以作为背景噪音注销(尽管噪音特别大),但每天有几次我们会出现峰值,仅此 UA 就会占用约 100mbps 的流量,持续约 15-30 分钟。
不幸的是,虽然谷歌新闻似乎是这些 URL 被发现的可能载体,但我们所看到的一切都是间接的,而且我们仍然没有任何确切的证据来说明这些 URL 是如何或为什么被攻击的。
班诺湾更新
我们有大型新闻网站 - 我们的故事每周都会被 Google 新闻多次收录。自 11 月下旬以来,我们一直从这个来源获得流量 - 并且每周都在增长 - 2 月份可能有 3000 万次展示。
出现在 Google News US 的首页是这种流量的触发因素 - 大约 75% 声称来自美国 IP。但无论它是什么,都在努力掩盖自己。这并不友好。
我们也没有发现确凿的证据——但一家主要的安全供应商已同意代表我们进行进一步调查。
刚刚在新闻网站 (AndroidPolice.com) 上第一次发生了同样的事情。大约 10 分钟的这些随机请求使 QPS 超过了我们的平均值(5000qps,这是 Linode 的 NodeBalancer 的限制)的 5000% 以上。当请求耗尽 I/O 和网络时,CPU 开始空闲 - 这是一个真正的 DDOS。
我真的很想深入了解这件事,但目前这似乎完全令人费解。
马克更新
只需添加一个+1。我们在我们的网站上看到了相同的行为。这里不需要添加大量新信息,但这里是我们流量的一般形状:
来自唐爱尔兰的更新
最后一个帖子是 4 月 13 日,但流量肯定还没有结束。其中最奇怪的部分可能是,任何称职的恶意软件作者肯定(肯定会)使用来自现代浏览器的用户代理字符串,这使得阻止用户代理防御毫无价值。这一事实使得看起来好像“无害”的新闻聚合器或其他应用程序是来源。不过,到目前为止,我也无法得出任何真正的结论,希望有信息的人将其发布在这里。
我们看到了相同的模式,谷歌新闻选择了一个故事,随后请求该故事的流量激增(但不是图像等附件文件)。出站响应流量会导致峰值,这可能会使网络饱和(或者确实如此,直到我们开始仅以 503 错误响应)。这些攻击(我们还能叫什么?)平均持续大约 30 分钟,但非常受欢迎的故事可能会有一个小时或更长时间的高流量(我说的是 Firefox 3.0.10 流量,当然正常流量也仍然很高一阵子)。
在一小时内(对于负载平衡组中的单个服务器),我们看到 200,000 个请求,其中 97,000 个是 firefox 3.0.10 请求,几乎占所有请求的 50%。当您考虑到通常一个页面会生成 10 个或更多对主文件和辅助文件的请求时,97,000 个显得更大。我注意到在这 97,000 个 IP 地址中,有 51,000 个唯一的 IP 地址。我说的是一个小时(实际上接近 45 分钟)。造成这种情况的原因非常普遍。
来自用户119708 的更新
我们在一个巨大的法国高科技新闻网站上遇到了同样的问题。
每当新闻在 google 新闻上发布和查看时,新闻的流量都会大大增加,IP 和用户代理“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) 的访问量大约为 50 到 100 ) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”。
所有 IP 地址似乎都位于法国或法国国家/地区,并且没有引用。它似乎是一个机器人,但为什么一个远程地址必须在几分钟内针对同一新闻返回 50 或 100 次?会不会是电脑被感染?为什么在谷歌新闻上看到新闻时会出现这种现象?谷歌是否应对这种奇怪的流量负责?
如果有人在这个话题中找到了解释,我想这将有助于许多中大型网站控制他们的流量!
编辑:http : //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 如果它确实是被感染的计算机,考虑到所涉及的地址数量,这是非常令人担忧的。我们将为 Apache 实现此脚本以阻止所有流量:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Run Code Online (Sandbox Code Playgroud)
埃内斯托的更新
中西班牙综合新闻网站,几天以来注意到一些无关新闻的高流量。
无论是谁,它都会加载完整的 HTML,正如我们注意到的那样,由于“页面查看”计数,我们在加载页面后通过数据库更新而增加。
我们每天只会注意到一两个目标网址。
在几秒钟内通过同一 URL 的大量请求 (7000-12000),在一天内从不同的 IP 分布。接下来几天定位其他网址。
没有推荐人。
所针对的文章出现在 Google 新闻上,但我们不能保证它是相关的。
Google Analytics 不会将其识别为合法流量。我们有超过 8000 次点击的文章,而 GA 只报告了 25 次左右(我假设它没有被解释为 javascript)。
从旧 Pro更新
为您添加一些数据点。
Bots vs. Browsers并不认为这个 UA 是一个机器人(目前)。
在我拥有日志的流量最高的站点上,2012 年 5 月迄今为止的使用情况显示该 UA 不到流量的 1%。UA 请求的很大一部分看起来是合法的(例如,加载所有预期的资源)。这与 2012 年 2 月基本相同。
本网站首页很少更新,所有动态内容都被robots.txt屏蔽。
这很可能来自 Genieo。他们更新了他们的应用程序以使用新的用户代理:Mozilla/5.0+(兼容;+Genieo/1.0+ http://www.genieo.com/webfilter.html)。它以与原始用户代理相同的模式命中,但现在他们似乎可以识别自己。如果您查看他们的用户代理中的 URL,他们甚至承认他们可能已经或可能仍在为某些网站产生过多的流量。-缺陷
数周以来,我们一直在与我们假设的 DDOS 攻击作斗争。我们刚刚开始将 Genieo 视为这些攻击的用户代理。以前我们看到“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”和大量来自“ Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0"。10k 多个不同的 IP,每天多达 100 万个请求,只有 3 或 4 个页面,其中相同的 IP 请求页面 100 多次,并且没有提取任何额外的资产或广告。我的发现是,这些 IP 实际上都没有访问过我们网站上的任何其他页面。
我联系了 Genieo,这是他们的回应:
“感谢您与我们联系。
旧版本的 Genieo 可能导致您描述的流量负载。对此造成的任何不便,我们深表歉意。我们昨天发布并更新了解决此问题的方法,来自我们应用程序的数据加载应该会在接下来的 24 小时内逐渐消失。我们相信通过向新用户介绍您的网站,我们为您的网站提供了良好的服务。我们没有正确评估随着我们的安装基础不断增长,它可能会导致某些站点过载。
Genieo 是个人报纸或智能 RSS 阅读器。它是具有智能语义个性化过滤的客户端 RSS 阅读器。Genieo 应用程序通过执行语义分析来跟踪来自用户最喜欢的站点的 RSS 数据“阅读”文章,并根据用户感兴趣的领域对其进行过滤。如果文章符合用户的兴趣,应用程序会在用户主页中显示文章的标题和片段。单击标题将转到文章的站点 - 您的站点。Genieo 代理是自主的(出于隐私原因);它在最终用户机器上运行,这就是为什么您会看到代理从许多不同的 IP 访问您的站点。
大多数 Genieo 数据来自用户的常规 RSS 提要,但 Genieo 还添加了一些来自用户以前未注册的新新闻站点的内容(出于偶然性和多样性)。Genieo 算法会查找“热门”文章、Twitter 热门文章、YouTube 观看次数最多和 Google 新闻精选,并检查它们是否符合用户的兴趣
我们不知道这会导致某些站点出现负载问题。一旦引起我们的注意,我们就会使用新版本更新当前用户,以防止负载峰值。
此致,
-刀坦
归档时间: |
|
查看次数: |
6027 次 |
最近记录: |