这是唯一正确答案是“视情况而定”的通用问题之一。标准是什么?
- 监控什么?
- 可达性、可用性?例如是一个链接上/下,主机是否响应 ICMP 等。
- 服务?例如是在正确的端口上侦听的东西,是正在运行的命名服务等。
- 资源?CPU使用率?例如,可能占总时间、累计时间、总时间或每个进程的百分比。磁盘使用情况?网络使用?例如移入或移出的字节或数据包。
- 服务?例如是在正确的端口上侦听的东西,是正在运行的命名服务等。
- 特定于服务或应用程序的指标?例如每秒的 DB 事务数、发送或接收的 SMTP 消息等。
- 如何发现/添加/设置/配置受监控元素?有自动发现吗?手动设置?
- 如何监控特定元素?
- 当地代理?例如做周期性的“df”或“ps”或“ping”
- 网管?
- JMX?
- Windows 性能计数器?
- 通知是怎么做的?例如控制台、电子邮件、寻呼机、SMS、IM 等。
- 如何对元素和通知进行分组和排序?
- 例如,链接失败是否会触发该链接后面所有服务或可达性元素的通知?还是只有一个?还是可以配置?
- 例如,主机故障是否会引发针对托管在那里的所有服务或应用程序以及缺乏资源监控数据的通知?
- 跟踪系统中是否有自动案例/票证/问题创建?
- 如何跟踪 SLA 指标?