在定期系统健康检查期间要检查的内容

Mac*_*ehl 3 windows-server-2003 healthcheck windows-server-2008-r2 sql-server oracle-11g

我的任务是准备一份检查清单,作为我的团队应该做的每周系统健康检查程序的一部分。问题是我和我的任何同事都不是专业的系统管理员,我们能想出的最好的办法是非常可笑的。

该系统运行西门子 SIMATIC IT 和 LIMS,但我对操作系统和数据库服务器的一些通用检查/测试感兴趣。其他人将负责特定于正在运行的应用程序的测试。

设置如下:

所有服务器都是虚拟的,在 vSphere5 环境中运行。

  • Web 服务器 – MS Windows Server 2003 R2
  • 2 台运行 SIMATIC IT 组件的服务器,一台用于 Historian,一台用于生产建模器和其他组件 – MS Windows Server 2003 R2
  • 数据库服务器 – MS Windows Server 2003 R2 + MS SQL Server 2005
  • 数据库 + LIMS 服务器 – MS Windows Server 2008 R2 + Oracle 数据库 11g

我们很可能无法访问 vCenter 控制台,因此我们的想法是将远程桌面连接到这些服务器,进行一些建设性的检查/测试并准备一份报告。

正如我已经写过的那样,除了检查可用磁盘空间之外,没有什么可以想出的。我还可以考虑使用 ChkDsk 检查文件系统的碎片级别和文件系统错误,查看 Windows 事件查看器中的一些重要错误和警告,检查数据库中的索引碎片级别,并可能收集一些响应时间的统计信息和一些重要查询的执行次数。

我将不胜感激任何帮助。除了关于应该检查什么的信息之外,在 24/5 负载的系统上不应该做什么的提示也将非常有帮助。例如,即使只是为了在负载下的数据库服务器上进行分析而运行碎片整理程序也可能是一个非常糟糕的主意,但我还不知道。

谢谢你。

vor*_*aq7 9

你被要求做错了。

您不应该登录到生产系统并定期进行手动检查。
这保证您将 (a) 错过检查之间发生的某些事情并导致您的业务中断,以及 (b) 最终在进行检查时搞砸并导致业务中断。

相反,您应该实施一个监控系统,该系统会进行持续的定期检查(每 5-10 分钟一次)并向您报告异常情况。有关的更多信息和想法,请参阅标签。

磁盘空间、交换利用率和 CPU 负载(RunQ 深度)是典型的需要监控的东西。您可能还想在数据库服务器上执行(并计时/检查输出)标准测试查询(这些查询是您必须根据您的环境创建的)。