我们目前有一条可容纳约 28 人的 T3 线路,白天速度非常慢,所以我需要一些东西来帮助查明原因。我假设有人正在下载他们可能不知道的东西。
我们将日志文件压缩以节省空间。通常我们将它们压缩,然后做
gunzip -c file.gz | grep 'test'
Run Code Online (Sandbox Code Playgroud)
查找重要信息,但我们想知道将文件解压缩然后执行 grep 是否更快。
cat file | grep 'test'
Run Code Online (Sandbox Code Playgroud)
如果将 gzip 读入内存并解压缩,那么第一个会更快,但如果没有,那么第二个会更快。有谁知道 gzip 如何解压缩数据?
因此,查看日志的平均响应时间约为 20-30 毫秒,但机器上的负载为 20+,并且使用外部测试似乎需要花费一秒钟的时间来加载。我无法想象这都是网络延迟,所以我很好奇 apache 日志从什么时候开始跟踪请求。如果负载为 20,这是否意味着事情正在排队等待甚至到达 acpache 进程,但一旦到达那里,处理只需要 30 毫秒?
我们将购买一些新硬件来专门用于 Hadoop 集群,但我们一直在纠结应该购买什么。假设我们有 5000 美元的预算,我们应该以每台 2500 美元的价格购买两台超级漂亮的机器,每台 1200 美元左右购买四台,还是每台 600 美元左右购买八台?hadoop 会在更慢的机器或最少的更快的机器上更好地工作吗?或者,像大多数事情一样“视情况而定”?:-)
这是几周前开始的,我们认为这是一种病毒,所以我们检查了每台计算机,尽管 50%(是的,没错)一旦被清除,问题并没有消失。这真的很令人沮丧,所以我想弄清楚,所以我需要有关如何找到罪魁祸首的建议。我认为路由器有日志记录,但它记录了每个人,所以很难说,我也许可以设置代理,但同样很难说何时以及监视什么。你有什么建议?
我一直在我们的日志中跟踪一些蜘蛛,我在他们的 ip 上做了一个跟踪路由,以发现它们实际上是 EC2 实例。用户代理被列为 Google bot 和 msnbot,但它们不是 Google 或 MS ip。有什么我可以做的吗,欺骗用户代理是一种常见的做法吗?我猜如果我禁止他们的 ip(我已经这样做了),他们只会启动一个新实例并继续。不过,我不想禁止所有 EC2 实例。