我有一个新的HP ProLiant DL360 G7系统,它出现了一个难以重现的问题。服务器在POST 过程中随机挂在“正在进行电源和热校准... ”屏幕上。这通常在从已安装的操作系统进行热启动/重新启动之后。
系统在这一点上无限期地停止。通过 ILO 3 电源控制发出复位或冷启动,可使系统正常启动而不会发生事故。
当系统处于此状态时,ILO 3 界面完全可访问且所有系统健康指标均正常(全部为绿色)。服务器位于气候控制的数据中心内,电源连接到 PDU。环境温度为 64°F/17°C。该系统在部署之前被置于一个 24 小时的组件测试循环中,没有出现故障。
该服务器的主要操作系统是 VMWare ESXi 5。我们最初尝试了 5.0,后来又尝试了 5.1 版本。两者都是通过 PXE 引导和 kickstart 部署的。此外,我们正在测试裸机 Windows 和 Red Hat Linux 安装。
HP ProLiant 系统具有一套全面的 BIOS 选项。除了静态高性能配置文件之外,我们还尝试了默认设置。我已经禁用了启动启动画面,只是在那个点上有一个闪烁的光标,而不是上面的屏幕截图。我们还为 BIOS配置尝试了一些 VMWare “最佳实践”。我们已经看到来自 HP的建议,它似乎概述了一个类似的问题,但没有解决我们的具体问题。
怀疑是硬件问题,我让供应商发送了一个相同的系统,以便当天交货。除了磁盘之外,新服务器是完全相同的构建。我们将磁盘从旧服务器移动到新服务器。我们在更换硬件上遇到了同样的随机启动问题。
我现在让两台服务器并行运行。该问题在热靴上随机出现。冷靴似乎没有问题。我正在研究一些更深奥的 BIOS 设置,例如禁用 Turbo Boost 或完全禁用电源校准功能。我可以尝试这些,但它们不是必需的。
有什么想法吗?
- 编辑 -
系统详情: