Tom*_*Tom 8 monitoring munin metrics resource-management
多年来,我在多台服务器上使用 munin 并取得了巨大成功,但是有 100 多个 munin 节点,并且当客户端上有负载时,处理会超时。
我对 cron 作业和客户端进程的数量进行了一些扩展更改,并减少了运行的插件数量等。但我决定寻找具有更可扩展架构的替代方案。
欢迎任何建议或经验。我基本上对用于容量规划和诊断资源使用情况的服务器指标感兴趣。(我们有 nagios 用于提醒)
听起来你可能有两个问题
我过去使用过 Munin,但我目前正在使用collectd。collectd 的作者为解决这些问题付出了很多心思和努力。他们有一个精心设计的系统,用于将数据写入 RRD 文件,确保您不会丢失数据并可以生成最新的图表。还支持RRDCacheD. 守护进程和官方插件是用 C 编写的,因此它们使用很少的内存或 CPU 时间。在我的客户端系统上,它每分钟使用不到 2MB 的 RAM 和大约四分之一秒的 CPU 时间。在我的监控服务器上,它每分钟使用 20MB 的 RAM 和三分之二秒的 CPU 时间。请记住,我所有的指标都是每十秒收集一次并发送到我的监控服务器,而不是像 munin 那样每隔几分钟就收集一次。