标签: monitoring

我们使用 Nagios 来监控相当多（~130）台服务器。我们监控每台服务器上的 CPU、磁盘、RAM 和其他一些东西。我一直使用 SSH 来运行远程命令，纯粹是因为它在远程服务器上几乎不需要额外的配置，只需安装 nagios-plugins，创建 nagios 用户并添加 SSH 密钥，所有这些我都自动化了一个 shell 脚本。我从未真正考虑过在 NRPE 上使用 SSH 对性能的影响。

我不太担心 Nagios 服务器上的负载（它的功能可能超出了规格，CPU 从未超过 10%），但我们每 30 秒运行一次远程检查，每个服务器有 5 个不同的检查执行。我认为 SSH 每次检查都需要更多资源，但有很大的不同吗？（即足以保证切换到 NRPE 的差异）。

如果有帮助，我们会监控物理服务器（通常具有 8、12 或 16 个物理核心）和 Amazon EC2 中/大型实例的组合。

monitoring performance nagios nrpe

Smu*_*dge

lucky-day

9
推荐指数

2
解决办法

1万
查看次数

有人可以解释默认 munin 图的“用例”吗？

安装 munin 时，它会激活一组默认插件（至少在 ubuntu 上）。或者，您可以简单地运行munin-node-configure以确定您的系统支持哪些插件。大多数这些插件绘制直接的数据。我的问题是无法解释的数据（也......也许对一些）的性质，但什么是你在这些图中寻找什么？

安装 munin 并查看精美图表很容易。但是拥有图表而无法“阅读”它们会使它们完全无用。

我将列出在我的系统上默认启用的标准插件。所以这将是一个很长的清单。为了完整起见，我还将列出我认为可以理解的插件，并简要说明我认为它的用途。如果我对其中任何一个有错误，请纠正。

所以让我把这个问题分成三个部分：

我什至不理解数据的插件
我了解数据但不知道应该注意什么的插件
我认为可以理解的插件

我什至不理解数据的插件

这些可能包含不一定只针对穆宁的问题。不理解数据通常意味着在操作系统/硬件的基础知识方面存在差距.... ;) 请随意回答“giyf”。

这些是我只能猜测发生了什么的插件......我几乎不想看这些“猜测”......

每个设备的磁盘 IO (IOs/秒)
什么是 IO。我知道它代表输入/输出。但就目前而言。
每个设备的磁盘延迟（平均 IO 等待）
不知道“IO 等待”是什么......
IO 服务时间
这是一个巨大的混乱，几乎不可能在图表中看到任何东西。

我了解数据但不知道应该注意什么的插件

IOStat（块/秒读/写）
我想，这里要注意的是尖峰？这意味着该设备被大量使用？
可用熵（字节）
我认为这对随机数生成很重要吗？我为什么要画这个？到目前为止，该值一直接近恒定。
VMStat (running/I/O sleep processes)
这个和“进程”图有什么区别？两者都显示运行/睡眠进程，而“进程”图似乎有更多细节。
每个设备的磁盘吞吐量（字节/秒读/写）
这和“IOStat”图有什么区别？
inode 表用法
我应该在这个图中寻找什么？

我认为可以理解的插件

我会在这里猜测一些事情......如果我错了，请纠正我。

磁盘使用百分比（百分比）
已使用/剩余多少磁盘空间。由于接近 100%，您应该考虑清理或扩展分区。这对于根分区非常重要。
防火墙吞吐量（数据包/秒）
通过防火墙的数据包数量。如果这种情况持续较长时间，则可能是 DOS 攻击的迹象（或者我们只是收到了一个大文件）。它还可以让您了解防火墙性能。如果它趋于平稳并且您需要更多“功率”，则应考虑负载平衡。如果它趋于平稳并看到与 CPU 负载的相关性，则也可能意味着您的硬件速度不够快。与磁盘使用情况的相关性可能表明您的 FW 配置中有过多的 LOG 目标。
eth0 错误（数据包输入/输出）
网络错误。如果此值增加，则可能是硬件故障的迹象。
eth0 流量（比特/秒输入/输出）
原始网络流量。这应该与防火墙吞吐量相关。
线程数
不断增加的值可能表示进程没有正确关闭线程。调查！
处理 …