我的部门维护着 6 台运行 Windows Server 2003 和 Ubuntu Server 的服务器。
我们必须报告和跟踪我们的正常运行时间。我相信我们必须有 95% 的正常运行时间,而且我们没有真正的方法来跟踪和报告这些数据。目前,我们只是使用文本文件手动执行此操作并估计停机时间。
有哪些工具可以帮助完成这项任务,或者您目前如何报告和跟踪您的服务器正常运行时间?
啊,我最喜欢的话题之一。
首先,您需要定义“正常运行时间”。
你的意思是服务器正在运行?(在这种情况下,只需在脚本中定期 ping 即可)。
或者你的意思是应用程序正在运行?(定期连接到应用程序的“主页”,假设它是一个网络应用程序)
或者您的意思是应用程序正在提供它应该提供的业务服务?(在这种情况下,您需要运行某种综合事务。
我认为只有最后一个在任何意义上都是正确的。其他的在技术上更容易做,但与“此服务器是否为业务提供价值”没有真正关联。
如果您单击我添加的链接,您将看到,有许多公司销售这样做的解决方案,或者您可以推出自己的解决方案。我有使用 NetIQ 产品和 Microsoft MOM 的经验(这两个有共同的历史),但我相信其他产品也能使用。
当您选择工具时,请考虑如何考虑计划的升级和维护期 - 一种幼稚的方法会将这些记录为停机时间。
此外,95% 的要求非常低——相当于每天停机 72 分钟,或每周超过 8 小时。尝试让您的服务器在每个星期四的整个工作日都停止服务,例如,我认为您会发现您的 SLA 实际上比这要求更高......