我有一个新的HP ProLiant DL360 G7系统,它出现了一个难以重现的问题。服务器在POST 过程中随机挂在“正在进行电源和热校准... ”屏幕上。这通常在从已安装的操作系统进行热启动/重新启动之后。
系统在这一点上无限期地停止。通过 ILO 3 电源控制发出复位或冷启动,可使系统正常启动而不会发生事故。
当系统处于此状态时,ILO 3 界面完全可访问且所有系统健康指标均正常(全部为绿色)。服务器位于气候控制的数据中心内,电源连接到 PDU。环境温度为 64°F/17°C。该系统在部署之前被置于一个 24 小时的组件测试循环中,没有出现故障。
该服务器的主要操作系统是 VMWare ESXi 5。我们最初尝试了 5.0,后来又尝试了 5.1 版本。两者都是通过 PXE 引导和 kickstart 部署的。此外,我们正在测试裸机 Windows 和 Red Hat Linux 安装。
HP ProLiant 系统具有一套全面的 BIOS 选项。除了静态高性能配置文件之外,我们还尝试了默认设置。我已经禁用了启动启动画面,只是在那个点上有一个闪烁的光标,而不是上面的屏幕截图。我们还为 BIOS配置尝试了一些 VMWare “最佳实践”。我们已经看到来自 HP的建议,它似乎概述了一个类似的问题,但没有解决我们的具体问题。
怀疑是硬件问题,我让供应商发送了一个相同的系统,以便当天交货。除了磁盘之外,新服务器是完全相同的构建。我们将磁盘从旧服务器移动到新服务器。我们在更换硬件上遇到了同样的随机启动问题。
我现在让两台服务器并行运行。该问题在热靴上随机出现。冷靴似乎没有问题。我正在研究一些更深奥的 BIOS 设置,例如禁用 Turbo Boost 或完全禁用电源校准功能。我可以尝试这些,但它们不是必需的。
有什么想法吗?
- 编辑 -
系统详情:
我有几台 HP DL360 系列服务器(第 5-8 代)。这些服务器中的每一个都安装了两个电源。每个服务器中的 2 个电源由不同的电路供电。
我的问题是这两个电路之间的功率消耗是否会大致平衡,或者服务器是否将一个电源视为“主要”电源,而将另一个电源视为具有较小功率消耗的“备用”电源?
electrical-power hp physical-environment power-supply-unit datacenter
长期以来,我一直倡导在我的系统环境中使用 HP ProLiant 服务器。在过去的 12 年中,该平台一直是我在多个行业进行基础设施设计的基础。
ProLiant 硬件的主要卖点是持久的产品线,具有可预测的组件选项、易于浏览的产品规格 (Quickspecs)、强大的支持渠道以及在产品生命周期内积极的固件发布/更新计划。
这有利于在一级和二级市场使用 HP 齿轮。随着组件成本的下降,旧设备和最新型号的设备可以通过额外的部件或通过交换/升级获得新的生命。
HP 固件的独特属性之一是倾向于在固件版本中引入新功能以及错误修正。我已经看到 Smart Array RAID 控制器获得新功能,服务器平台获得对更新操作系统的支持,严重的性能问题得到解决;全部通过固件发布。通读典型的变更日志历史可以揭示创建一个稳定的硬件平台需要多少测试和努力。我很感激,并相应地购买了。
其他制造商似乎按原样交付产品,只专注于纠正后续固件版本中的错误。我很少在 Supermicro 和 Dell 设备上运行固件更新。但我认为在没有初始固件维护通行证的情况下部署 HP 服务器是不负责任的。
鉴于此,早期报告的的政策修订通过关于HP服务器固件访问是惊人的...
访问适用于 HP ProLiant 服务器的特定服务器固件更新和 SPP 需要获得授权,并且仅适用于拥有有效合同支持协议、HP Care Pack 服务或与其 HP 支持中心用户 ID 相关联的保修的 HP 客户。与往常一样,客户必须为正在更新的特定产品签订合同或保修。
本质上,您的服务器必须有有效的保修和支持才能访问固件下载(可能还有HP Service Pack for ProLiant DVD)。
这将影响使用旧设备最多的独立 IT 技术人员、内部 IT 和客户,其次是寻求二手惠普设备交易的人。我提供了许多服务器故障答案,归结为“更新此组件的固件将解决您的问题”。该建议的接收者可能不会获得积极的支持,并且没有资格根据此政策下载固件。
考虑到许多服务器级系统都配备了ECC RAM,在部署之前烧入内存 DIMM是否必要或有用?
我遇到过这样一种环境,其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。
服务器硬件主要是Supermicro,因此 RAM 来自各种供应商;不是直接来自制造商,如Dell Poweredge或HP ProLiant。
这是一个有用的练习吗?在我过去的经验中,我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗?我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安置的触发因素。
我有一个 HP DL380 G7,里面有 2 个不匹配的 CPU。一种是具有更快内核的四核 CPU,一种是具有较慢内核的 6 核 CPU。
在这个盒子上,我运行一个应用程序,由于许可原因,它只使用 CPU0-CPU3。
对我来说,希望四核 CPU 上更快的内核在操作系统中枚举到 CPU0-CPU3,从而为我带来性能奖励 a) 使用更快的时钟内核,以及 b) 将所有线程保持在同一个物理 CPU 上.
有没有办法在 BIOS 中、在 Linux 中的配置文件或引导选项中实现这一点?
具体的CPU型号有:
Intel(R) Xeon(R) CPU E5649 @ 2.53GHz(六核)
Intel(R) Xeon(R) CPU E5640 @ 2.67GHz(四核)
我管理的大多数 Linux 系统都具有硬件 RAID 控制器(主要是HP Smart Array)。他们都在运行 RHEL 或 CentOS。
我正在寻找真实世界的可调参数,以帮助优化将硬件 RAID 控制器与 SAS 磁盘(智能阵列、Perc、LSI 等)和电池后备或闪存后备缓存相结合的设置的性能。假设 RAID 1+0 和多个主轴(4 个以上的磁盘)。
我花了大量时间为低延迟和金融交易应用程序调整 Linux 网络设置。但其中许多选项都有详细记录(更改发送/接收缓冲区、修改 TCP 窗口设置等)。工程师在存储方面做什么?
从历史上看,我对I/O 调度电梯进行了更改,最近选择了deadline和noop调度程序来提高我的应用程序的性能。随着 RHEL 版本的进步,我还注意到 SCSI 和 CCISS 块设备的编译默认值也发生了变化。随着时间的推移,这对推荐的存储子系统设置产生了影响。但是,我已经有一段时间没有看到任何明确的建议了。而且我知道操作系统默认设置不是最佳的。例如,对于服务器级硬件上的部署而言,128kb 的默认预读缓冲区似乎非常小。
以下文章探讨了更改预读缓存和nr_requests值对块队列的性能影响。
http://zackreed.me/articles/54-hp-smart-array-p410-controller-tuning
http://www.overclock.net/t/515068/tuning-a-hp-smart-array-p400-with -linux-why-tuning-really-matters
http://yoshinorimatsunobu.blogspot.com/2009/04/linux-io-scheduler-queue-size-and.html
例如,以下是 HP Smart Array RAID 控制器的建议更改:
echo "noop" > /sys/block/cciss\!c0d0/queue/scheduler
blockdev --setra 65536 /dev/cciss/c0d0
echo 512 > /sys/block/cciss\!c0d0/queue/nr_requests
echo 2048 > /sys/block/cciss\!c0d0/queue/read_ahead_kb
Run Code Online (Sandbox Code Playgroud)
还有什么可以可靠地调整来提高存储性能?
我专门在生产场景中寻找 sysctl 和 sysfs 选项。
安装在运行 VMware ESXi的HP ProLiant DL380p Gen8服务器中的 SD (SDHC) 卡刚刚出现故障:(
我在 vCenter 控制台和 HP ProLiant ILO 事件日志中遇到了一些看起来不祥的消息...
失去与设备的连接......支持引导文件系统。因此,主机配置更改将不会保存到持久存储中。
嵌入式闪存/SD-CARD:写入媒体 0 时出错,物理块 848880:堆栈异常。
VMware 提倡对 ESXi 使用 USB 和 SD (SDHC) 引导设备。这是开发占用空间较小的 ESXi(相对于较旧的 ESX)的主要原因之一。我花了很多时间向同事和客户强调ESXi 的可安装模式和嵌入式模式之间的差异。然而,这些失败似乎确实发生了。在这种情况下,这是我的第三个实例。
幸运的是,这是一个带有 SAN 存储的 vSphere 集群。应该采取什么步骤来补救这种失败?
我正在为打印机安装驱动程序,我可以选择 PCL(5 或 6)或 PostScript 驱动程序?你会推荐哪一个,为什么?
打印机为 HP LaserJet 2605dn,操作系统为 Windows 7 (x64)。
你对这类事情有什么经验法则吗?或者它几乎是“看看什么是有效的”?
谢谢
我想知道是否有人在 HP (DL380p) Gen8 服务器中使用 Intel DC3700 SSD(或类似产品)有任何具体经验?
我正在升级一组使用直连存储的数据库服务器。通常,我们在服务器配置中使用 HP 品牌的所有东西,除了一些带有 SSD 的台式机(所有这些都完美无缺)之外,我还没有使用过 SSD——当然不在服务器中。
我们要升级的服务器在 Windows 上运行 SQL Server (2005)。我们正在迁移到 SQL 2012。当前的机器在 DL370 G6 上托管一个 200GB 的数据库,在 RAID 1+0 中配置了 72GB 15K SFF 驱动器,如下所示:OS(2 个轴)、tempdb(4 个轴)、t-logs(8 个轴) )、数据(20 个主轴)。性能不是问题(CPU 负载通常为 20%/峰值 30%,磁盘队列通常为 1)。数据卷磁盘在 P800 上的 MSA50 中运行 - 因此最高可能有 5K IOPS。硬件已接近 4 年,因此是时候进行更新了。
数据使用情况,由单个硬盘报告,显示自部署在数据卷上以来的写入量 < 100TB;< 10TB 写入事务日志卷;和 ~ 1TB 在 tempdb 上。
这就是用例。现在考虑一个新的、相同的磁盘子系统。每台服务器的运行成本约为 1.5 万美元(34 个 15K 硬盘 @ 250 美元 + 2 个 D2700 架 + 用于外部存储的智能阵列 P421)。 …
HP 4050N LaserJet 打印机的 RAM 升级是否重要?我们拥有这台真正的激光打印机主力。它是 HP 4050N,已使用多年。在过去的几年中,我注意到开始打印之前的处理时间可能需要很长时间。在某些情况下,某些打印队列的处理时间太长,我们最终会杀死它们并将其发送到网络上的其他打印机。
这台 HP 4050N 打印机共有 16 MB 的 RAM。我相信它内置了 8 MB,我怀疑它在主板上。RAM 有三个插槽。一个插槽有一个 8 MB 的 RAM 棒。我查看了用户指南,显然这个型号最多可以达到 200 MB 的 RAM。
我已经看到这款打印机的 RAM 以 64 MB 或 128 MB 的价格出售,非常便宜。
我的问题是,通过将总内存提高到 80 MB 或 144 MB 来升级这台打印机的 RAM 是否会显着改善处理时间,以便在打印包含现代图形的输出时值得做?或者 RAM 甚至是问题,而打印机 CPU 的处理速度才是真正的瓶颈?
更新:我以 10.00 美元(128 MB)订购的 RAM 到货并安装了它。因此,HP4050N 从总共 16 MB 的 RAM 变为 144 MB。我打印了之前一直处于“处理”状态并且从未出现过的测试打印,但是在这次升级之后,它正常打印了。这符合我们的需求。对于您的情况,正如他们所说,您的里程可能会有所不同。
hp ×10
hp-proliant ×5
hardware ×4
memory ×2
printing ×2
database ×1
datacenter ×1
firmware ×1
linux ×1
ssd ×1
storage ×1
supermicro ×1
update ×1
vmware-esxi ×1
windows-7 ×1