我有一个新的HP ProLiant DL360 G7系统,它出现了一个难以重现的问题。服务器在POST 过程中随机挂在“正在进行电源和热校准... ”屏幕上。这通常在从已安装的操作系统进行热启动/重新启动之后。
系统在这一点上无限期地停止。通过 ILO 3 电源控制发出复位或冷启动,可使系统正常启动而不会发生事故。
当系统处于此状态时,ILO 3 界面完全可访问且所有系统健康指标均正常(全部为绿色)。服务器位于气候控制的数据中心内,电源连接到 PDU。环境温度为 64°F/17°C。该系统在部署之前被置于一个 24 小时的组件测试循环中,没有出现故障。
该服务器的主要操作系统是 VMWare ESXi 5。我们最初尝试了 5.0,后来又尝试了 5.1 版本。两者都是通过 PXE 引导和 kickstart 部署的。此外,我们正在测试裸机 Windows 和 Red Hat Linux 安装。
HP ProLiant 系统具有一套全面的 BIOS 选项。除了静态高性能配置文件之外,我们还尝试了默认设置。我已经禁用了启动启动画面,只是在那个点上有一个闪烁的光标,而不是上面的屏幕截图。我们还为 BIOS配置尝试了一些 VMWare “最佳实践”。我们已经看到来自 HP的建议,它似乎概述了一个类似的问题,但没有解决我们的具体问题。
怀疑是硬件问题,我让供应商发送了一个相同的系统,以便当天交货。除了磁盘之外,新服务器是完全相同的构建。我们将磁盘从旧服务器移动到新服务器。我们在更换硬件上遇到了同样的随机启动问题。
我现在让两台服务器并行运行。该问题在热靴上随机出现。冷靴似乎没有问题。我正在研究一些更深奥的 BIOS 设置,例如禁用 Turbo Boost 或完全禁用电源校准功能。我可以尝试这些,但它们不是必需的。
有什么想法吗?
- 编辑 -
系统详情:
我的 HP Proliant ML110 G7 主板上有一个全尺寸 SD 插槽。它的用例是什么?
该PDF说明书中提到它page 10: item 17
只是为了显示它的位置,但仅此而已。在后来的修订版(第 9 代)中,据说该插槽不可热插拔。
主板还有一个 USB 插槽(第 11 项)。
长期以来,我一直倡导在我的系统环境中使用 HP ProLiant 服务器。在过去的 12 年中,该平台一直是我在多个行业进行基础设施设计的基础。
ProLiant 硬件的主要卖点是持久的产品线,具有可预测的组件选项、易于浏览的产品规格 (Quickspecs)、强大的支持渠道以及在产品生命周期内积极的固件发布/更新计划。
这有利于在一级和二级市场使用 HP 齿轮。随着组件成本的下降,旧设备和最新型号的设备可以通过额外的部件或通过交换/升级获得新的生命。
HP 固件的独特属性之一是倾向于在固件版本中引入新功能以及错误修正。我已经看到 Smart Array RAID 控制器获得新功能,服务器平台获得对更新操作系统的支持,严重的性能问题得到解决;全部通过固件发布。通读典型的变更日志历史可以揭示创建一个稳定的硬件平台需要多少测试和努力。我很感激,并相应地购买了。
其他制造商似乎按原样交付产品,只专注于纠正后续固件版本中的错误。我很少在 Supermicro 和 Dell 设备上运行固件更新。但我认为在没有初始固件维护通行证的情况下部署 HP 服务器是不负责任的。
鉴于此,早期报告的的政策修订通过关于HP服务器固件访问是惊人的...
访问适用于 HP ProLiant 服务器的特定服务器固件更新和 SPP 需要获得授权,并且仅适用于拥有有效合同支持协议、HP Care Pack 服务或与其 HP 支持中心用户 ID 相关联的保修的 HP 客户。与往常一样,客户必须为正在更新的特定产品签订合同或保修。
本质上,您的服务器必须有有效的保修和支持才能访问固件下载(可能还有HP Service Pack for ProLiant DVD)。
这将影响使用旧设备最多的独立 IT 技术人员、内部 IT 和客户,其次是寻求二手惠普设备交易的人。我提供了许多服务器故障答案,归结为“更新此组件的固件将解决您的问题”。该建议的接收者可能不会获得积极的支持,并且没有资格根据此政策下载固件。
我有一个在远程设施上运行金融交易应用程序的系统。我无权访问 ILO/DRAC,但需要禁用超线程。该系统运行 Intel Westmere 3.33GHz X5680 六核 CPU。我可以重新启动,但要确保系统由于性能问题而未启用超线程。有没有一种干净的方法可以从 Linux 中做到这一点?
编辑:noht
添加到内核引导命令行的指令不起作用。RHEL 也一样。
我有一个 HP DL380 G7,里面有 2 个不匹配的 CPU。一种是具有更快内核的四核 CPU,一种是具有较慢内核的 6 核 CPU。
在这个盒子上,我运行一个应用程序,由于许可原因,它只使用 CPU0-CPU3。
对我来说,希望四核 CPU 上更快的内核在操作系统中枚举到 CPU0-CPU3,从而为我带来性能奖励 a) 使用更快的时钟内核,以及 b) 将所有线程保持在同一个物理 CPU 上.
有没有办法在 BIOS 中、在 Linux 中的配置文件或引导选项中实现这一点?
具体的CPU型号有:
Intel(R) Xeon(R) CPU E5649 @ 2.53GHz(六核)
Intel(R) Xeon(R) CPU E5640 @ 2.67GHz(四核)
安装在运行 VMware ESXi的HP ProLiant DL380p Gen8服务器中的 SD (SDHC) 卡刚刚出现故障:(
我在 vCenter 控制台和 HP ProLiant ILO 事件日志中遇到了一些看起来不祥的消息...
失去与设备的连接......支持引导文件系统。因此,主机配置更改将不会保存到持久存储中。
嵌入式闪存/SD-CARD:写入媒体 0 时出错,物理块 848880:堆栈异常。
VMware 提倡对 ESXi 使用 USB 和 SD (SDHC) 引导设备。这是开发占用空间较小的 ESXi(相对于较旧的 ESX)的主要原因之一。我花了很多时间向同事和客户强调ESXi 的可安装模式和嵌入式模式之间的差异。然而,这些失败似乎确实发生了。在这种情况下,这是我的第三个实例。
幸运的是,这是一个带有 SAN 存储的 vSphere 集群。应该采取什么步骤来补救这种失败?
我想知道是否有人在 HP (DL380p) Gen8 服务器中使用 Intel DC3700 SSD(或类似产品)有任何具体经验?
我正在升级一组使用直连存储的数据库服务器。通常,我们在服务器配置中使用 HP 品牌的所有东西,除了一些带有 SSD 的台式机(所有这些都完美无缺)之外,我还没有使用过 SSD——当然不在服务器中。
我们要升级的服务器在 Windows 上运行 SQL Server (2005)。我们正在迁移到 SQL 2012。当前的机器在 DL370 G6 上托管一个 200GB 的数据库,在 RAID 1+0 中配置了 72GB 15K SFF 驱动器,如下所示:OS(2 个轴)、tempdb(4 个轴)、t-logs(8 个轴) )、数据(20 个主轴)。性能不是问题(CPU 负载通常为 20%/峰值 30%,磁盘队列通常为 1)。数据卷磁盘在 P800 上的 MSA50 中运行 - 因此最高可能有 5K IOPS。硬件已接近 4 年,因此是时候进行更新了。
数据使用情况,由单个硬盘报告,显示自部署在数据卷上以来的写入量 < 100TB;< 10TB 写入事务日志卷;和 ~ 1TB 在 tempdb 上。
这就是用例。现在考虑一个新的、相同的磁盘子系统。每台服务器的运行成本约为 1.5 万美元(34 个 15K 硬盘 @ 250 美元 + 2 个 D2700 架 + 用于外部存储的智能阵列 P421)。 …
我有一台用作工作站的 HP ProLiant DL370 G6 服务器。在使用独立的 Radeon HD6xxx GPU 发布屏幕之前,重新启动和冷启动需要 60 秒。我该怎么做才能让它启动得更快?
我有机会使用 HP Gen8 服务器。它快速发布并显示各种 CPU/内存/QPI 初始化步骤。仍然需要很长时间,但至少我可以看到发生了什么。
我打算在我的系统(HP ML370 G5、Smart Array P400、8 SAS 磁盘)上使用 ZFS。我希望 ZFS 单独管理所有磁盘,以便它可以利用更好的调度(即我想在 ZFS 中使用软件 RAID 功能)。
问题是,我找不到禁用 RAID 控制器上的 RAID 功能的方法。现在,控制器将所有磁盘聚合到一个大的 RAID-5 卷中。所以 ZFS 看不到单个磁盘。
有没有办法完成这个设置?
我正在我办公室的服务器上工作。服务器最终将搬迁到数据中心。我希望能够让我办公室的服务器保持开启状态,这意味着我希望能够保护它免受断电或电涌的影响。在办公室里,我只有台式 UPS。我想避免花钱购买昂贵的服务器级 UPS。
我不介意它是否只有短时间的保护(即使是几分钟也会比我住的地方任何可能的断电时间都长)
UPS 是 APC Back-UPS ES 400(400 VA,240 瓦)
服务器是 DL 360p Gen 8(750 瓦 PSU)