Jos*_*osh 9 hardware nagios high-load
我有一台运行 Ubuntu 的 nagios 服务器,带有 2.0 GHz Intel 处理器、RAID10 阵列和 400 MB 的 RAM。它监控 8 台主机上的 42 项服务,其中大部分使用 check_http 插件甚至 5 分钟检查一次,有些每分钟一次。最近nagios服务器的负载一直在4以上,经常高达6。服务器还运行cacti,每分钟收集6台主机的统计信息。
我想知道,像这样的硬件应该能够处理多少服务?负载这么高是因为我在挑战硬件的极限,还是这个硬件应该能够处理 42 个服务检查加上 cacti?如果硬件不足,我应该考虑添加更多 RAM、更多内核还是更快的内核?其他人正在运行哪些硬件/服务检查?
你需要弄清楚你的瓶颈在哪里......
我运行了一个 nagios 监视器,它通过 http、ping 和 ssh 检查来检查 400 多个主机。(以及许多其他被动检查和 nscd)
这是在 RAID10 中有 4 个 SAS 磁盘的 2xQuadCore 服务器上。
我怀疑您有 IO 争用,因为写入大量 rrd 的效率非常低。
您需要弄清楚哪个进程占用了您的资源。(仙人掌,nagios 或其他东西)
对于 IO 检查,我喜欢 iotop。安装 iotop(9.04 软件包适用于 8.04)
但除此之外,顶部还应该帮助您找到您的负载猪。
仙人掌每分钟一次非常具有攻击性。(我以 5m 的间隔运行我的)
我听说过的一种用于 rrd 写入争用的方法是将 rrd 存储放在 ramdisk/tmpfs 上。(确保不时将其同步到持久存储)
祝你好运。
除非是仙人掌产生了大部分负载,否则您应该能够运行比硬件更多的检查。
我在一台运行在 Microsoft Virtual Server 上的 FreeBSD 虚拟机上运行 nagios,该虚拟机运行在一台速度较慢的旧 PC(Pentium 3 1GHz 和 PATA 磁盘较慢)上。虚拟机只有 128MB RAM,性能很差。
然而,平均负载约为 0.2,在 42 台主机上运行 158 次检查。