eww*_*ite 44 hardware hp hp-proliant
我有一个新的HP ProLiant DL360 G7系统,它出现了一个难以重现的问题。服务器在POST 过程中随机挂在“正在进行电源和热校准... ”屏幕上。这通常在从已安装的操作系统进行热启动/重新启动之后。
系统在这一点上无限期地停止。通过 ILO 3 电源控制发出复位或冷启动,可使系统正常启动而不会发生事故。
当系统处于此状态时,ILO 3 界面完全可访问且所有系统健康指标均正常(全部为绿色)。服务器位于气候控制的数据中心内,电源连接到 PDU。环境温度为 64°F/17°C。该系统在部署之前被置于一个 24 小时的组件测试循环中,没有出现故障。
该服务器的主要操作系统是 VMWare ESXi 5。我们最初尝试了 5.0,后来又尝试了 5.1 版本。两者都是通过 PXE 引导和 kickstart 部署的。此外,我们正在测试裸机 Windows 和 Red Hat Linux 安装。
HP ProLiant 系统具有一套全面的 BIOS 选项。除了静态高性能配置文件之外,我们还尝试了默认设置。我已经禁用了启动启动画面,只是在那个点上有一个闪烁的光标,而不是上面的屏幕截图。我们还为 BIOS配置尝试了一些 VMWare “最佳实践”。我们已经看到来自 HP的建议,它似乎概述了一个类似的问题,但没有解决我们的具体问题。
怀疑是硬件问题,我让供应商发送了一个相同的系统,以便当天交货。除了磁盘之外,新服务器是完全相同的构建。我们将磁盘从旧服务器移动到新服务器。我们在更换硬件上遇到了同样的随机启动问题。
我现在让两台服务器并行运行。该问题在热靴上随机出现。冷靴似乎没有问题。我正在研究一些更深奥的 BIOS 设置,例如禁用 Turbo Boost 或完全禁用电源校准功能。我可以尝试这些,但它们不是必需的。
有什么想法吗?
- 编辑 -
系统详情:
所有固件都是最新的 HP Service Pack for ProLiant DVD 版本。
打电话给 HP 并浏览 interwebz,我看到有人提到 ILO 3 交互不好,但这也发生在物理控制台上的服务器上。惠普还推荐了电源,但这是在成功为其他生产系统供电的数据中心机架中。
这是否有可能是低压 DIMM 和 750W 电源之间的不良交互?此服务器应该是受支持的配置。
eww*_*ite 47
因此,在引入第三个系统并遇到同样的问题后,我们开始质疑环境。我翻出了一份HP ProLiant 服务器故障排除指南,发现了如下所示的 POST 问题流程图。
仔细执行图表中的步骤,我们意识到所有服务器上的一个常数是连接到数据中心急救车的 KVM 切换器。这是一个消费级的支持 USB 的 KVM。根据流程图中突出显示的节点,您知道好的 KVM 吗?,我无法给出结论性的回答。
因此,我们从 KVM 切换器上拔下服务器并运行自动引导,sleep 300; reboot
序列在rc.local
. 无论是普通 DIMM、低压 DIMM、PSU 瓦数等,服务器都没有这个问题。
这都是与 USB KVM 切换器交互不佳的结果。凭借这是控制台的优点,它确保我们在寻找它时会看到故障。自我实现...