向管理层展示哪些监控项目?

Gre*_*SAT 5 monitoring

我的管理层要求在走廊内显示监控屏幕。当他们试图销售这种绝妙的设备时,他们会想到销售人员展示的那些绝妙的屏幕截图,这些设备永远不会出现故障(永远不会,保证)。或者我们在访问 Nagio 或 Cacti 网站时看到的那种东西(我展示了一些,他们说是的)。

我的管理层对计算人员在做什么几乎一无所知。他们希望这对网络、服务器等有一些专业的感觉。并且可能被视为专业的自己。

我们有 :

  • 3 个服务器(1 个文件服务器,2 个应用程序服务器)
  • 1个备份服务器
  • 1 个 LAN 和 3 个管理型交换机
  • 2条ADSL线路
  • 1 个 VPN 连接 7 个小型远程站点
  • 1 甲骨文数据库
  • 2 运行在服务器上的应用程序
  • 和很多小东西

我们已经在使用 Nagios。他们对我们的简单观点不感兴趣,说一切都好。我想向他们展示一些更好的想法,这样他们就可以告诉我他们想要这个或那个。

我想想 :

  • 显示磁盘使用情况的饼图(带有部门名称)
  • 一个图à la Cacti 显示文件服务器上的磁盘 I/O
  • 一张图显示交换机上的网络吞吐量
  • 一张图显示 Oracle 吞吐量或相关内容
  • VPN的天气图

有什么更好的想法吗?

sys*_*138 4

有趣的问题。我以前曾不得不想出类似的仪表板,但除了技术管理之外,从未做过任何其他事情。您正在寻找的显示器类型...可能需要自定义代码来显示来自您正在使用的任何监控系统的信息。一些系统(我现在正在考虑 Zenoss)具有足够的可定制性,可以在内部构建一些东西,但为了真正的完善,您将重新呈现您已经收集的数据。

这类高层管理人员正在寻找具有深入研究可能性的大局。您显示的项目应该是最重要的项目。在不了解您的应用程序的情况下,我可能会将以下内容放在仪表板上:

  • Internet 连接的网络吞吐量(图表或刻度盘)
  • 显示 Oracle 数据库负载的图表。我意识到发现这是一件复杂的事情,但找到一些代理并显示它。
  • 某种整体磁盘空间显示。如果变化足够频繁,则绘制图表;如果变化不频繁,则绘制简单的温度计。
    • 如果他们关心的话,他们关心的每个组织单位的图表;可能更难获得。
    • 如果您使用共享存储,则会显示一个图表,显示磁盘阵列上随时间变化的未分配空间。这些都是大预算项目,因此值得跟踪。
  • 应用程序级状态:应用程序是正常运行、工作在降级但功能正常的状态还是已关闭?
  • 应用程序服务器加载。

实际上我会避开 VPN 热图,除非他们真的想要这样做。它对于相当大的信息密度很有用,这本身就可以成为一个目标,但我认为它无法向他们的水平传达有意义的信息。

同样,交换机吞吐量,除非您真正担心的是背板带宽。如果他们想要漂亮的信息,那就去吧。但如果他们想要有用的东西,我只会在显示屏上还有空间的情况下添加它。

出于政治原因(备份在 I/O 方面非常昂贵,天哪,我们不需要更多的小部件吗)或相当高的密度,磁盘 I/O 可能是一个好主意,但同样不是我向高层管理人员提出的东西。