惠普服务器的自动化硬件测试?

Mar*_*ner 9 hardware automated-testing hp hp-proliant

作为配置服务器的一部分,我们运行 HP 的 Insight Diagnostics 来测试硬件。这是一个手动过程。有没有办法自动运行 Insight Diagnostics?

hpdiags 软件带有选项“-rd:”“运行所有可诊断设备的诊断”。从我的测试来看,这并没有多大作用(它只是从磁盘读取 SMART 信息)。有没有人有更好的运气?

硬件:BladeCenter c7000 与 HP ProLiant BL460c 刀片、DL360s。

操作系统:ESXi 和 Ubuntu。

eww*_*ite 8

那么,我再提出一个问题:

为什么需要在配置之前在服务器上运行 HP Insight 硬件诊断?

在我上面的评论中,我指出在大型 HP ProLiant 环境中抢先执行此操作几乎没有什么好处。我应该澄清一下我的想法......

按照频率降序,让我们看看您通常会遇到的问题类型:

  • 存储阵列和磁盘:RAID 控制器将向操作系统、日志、SNMP、电子邮件、ILO 报告并点亮漂亮的灯以指示健康状况。

  • RAM:POST 过程将检测 RAM 状态,以及系统向 OS、日志、SNMP、电子邮件、ILO 报告并点亮前面板上的Systems Insight 显示屏 (SID)上的 LED 指示灯。此外,我不喜欢RAM 老化过程,因为这些系统的错误检测已经很强大了。

  • 散热和风扇:服务器温度和风扇速度由 ILO 调节。这些系统上有 30 多个温度传感器,因此冷却系统非常高效。这仍会向操作系统、日志、SNMP、电子邮件和 SID 报告。

  • 电源:PSU 状态报告给操作系统、日志、SNMP、电子邮件和 SID,以及实际电源单元上的实际指示灯。

  • 总体健康状况:除了内部健康状况和外部健康状况 LED 外,还可以通过 SID 显示轻松评估这一点。这也会报告给服务器的日志、SNMP、电子邮件和 ILO。

在此处输入图片说明

我想不出任何在运行时或操作系统安装后不会/无法报告的部署前条件。

在没有明显先前问题的系统上运行时,诊断循环通常不会找到任何东西。这主要是因为服务器需要 POST 并引导至实用程序或 Intelligent Provisioning 固件才能运行实用程序。

换句话说,任何对服务器来说都是严重“SPOF”的项目可能会阻止系统运行其自我诊断。

最常见的故障项仍然相当健壮;磁盘应该在 RAID 中并且可以热插拔。风扇和电源也可热插拔。您的 RAM 具有 ECC 阈值,并且大多数 ProLiant 平台都有在线备用选项。您无法通过运行诊断程序来导致这些组件出现故障。再加上您使用的是具有内部冗余的 HP C7000 刀片机箱,您的故障发生率应该非常低。