这是一个瞬息万变的事件,目前还没有答案。
请不要发布您的发现或假设作为答案;保留答案字段以供您实际获得答案时使用。
如果您有新内容要添加,请直接将其编辑到问题中。
自今年年初以来,我通过用户代理获得了大量流量:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
我的访问日志显示 40% - 60% 来自该用户代理。这很奇怪,因为用户代理声明了 Firefox 3.0.10 浏览器(有人在 2012 年使用该浏览器吗?绝对不是普通网站上 40%-60% 的访问者)。
此外,日志显示该用户代理仅请求 HTML 文档,没有引用图像、css、js 文件等资源。
我检查了这些请求的 IP(使用该 UA)。它来自世界各地。我认识到这些 IP 有时具有移动用户代理。
所以我怀疑是一个正在执行大量“蜘蛛请求”的移动应用程序。最好知道来自该用户代理的流量的根本原因。
在过去的几周里,我们意识到来自该 UA 的流量下降了,而其他流量却增加了。看起来机器人/爬虫现在使用的是更常见的 UA,因此更难阻止。我看到有人在回答这个问题时这么说,但是当 serverfault 决定重新安排这个问题时,它被删除了。
旧答案作为参考
来自Dee 的更新
我运行着自己的流量非常高的网站,我在上个月左右的 apache 日志中看到了完全相同的内容(我还没有机会进一步检查)。所有请求的 40% 是我看到的百分比,这显然很疯狂。
而且我还注意到请求似乎总是说请求浏览器不支持 gzip 压缩 - 导致所有网页请求都未经压缩发送,我们的带宽使用量激增!
但到目前为止,我一直无法确定到底发生了什么——到目前为止,我怀疑它可能是某种代理服务器,或者用于发送虚假用户代理字符串的移动设备。
编辑添加:只是做了一些更多的研究,看起来它可能是防病毒软件:http : //www.webmasterworld.com/search_engine_spiders/4428772.htm
来自jamur21 的更新
是的,我们注意到跨多个站点的类似流量。
我们仍在寻找根本原因,但我们的一些发现包括:
如果它是一只蜘蛛,它的工作就很糟糕。它似乎在一段时间内(可能几个小时)对每个域只敲击一个或两个 URL,直到它移动到另一个 URL。然而,内容总是相对“最新”的,这使谷歌新闻成为一个因素,正如 Dee 在他/她的回答中发布的链接所假定的那样(我们所有的网站都是新闻网站)。
虽然 …