大公司如何监控他们的服务器?

Max*_*ler 4 java qos network-monitoring

我想知道网络规模的人使用什么软件来监视服务器场中的 n 个服务器阵列。

facebook、twitter、digg 用什么?谷歌是怎么做的?

我正在寻找满足我们自己的监控要求的解决方案。我们的服务器位于云、AppEngine 和 EC2 中。我们希望监控“应用程序”(由许多小型服务构建),这意味着最终结果应该是一个可以监控响应时间(+alivenss 和 co.)和应用程序有效性的系统:如果我做 X 那么 Y应该发生,然后在 2 小时后验证 Z 已处理并将 T 附加到正确的日志...

理想的解决方案是一个我可以将单元测试部署到的系统,与我在开发时用来测试软件的单元测试相同。

强烈欢迎建议、指示、评论 - 我正在寻找解决此问题的方向。

谢谢,马克西姆。

nat*_*njo 10

我前一段时间看过这个。这是“Facebook 运营生活中的一天”。他们使用 cfengine2(部署)、nagios(监控)、ganglia(监控和趋势分析)以及许多内部工具。看到我们使用的一些工具被如此大规模地使用(+60.000台服务器)很有趣