在我的组织中,我们正在考虑购买刀片服务器——而不是机架服务器。当然,技术供应商也让它们听起来非常好。我在不同论坛上经常看到的一个问题是,理论上存在服务器机箱停机的可能性——这将导致所有刀片停机。这是由于共享基础设施。
我对这种可能性的反应是有冗余和两个机箱而不是一个(当然非常昂贵)。
有些人(包括例如 HP 供应商)试图说服我们,由于许多冗余(冗余电源等),机箱极不可能发生故障。
我这边的另一个担忧是,如果出现故障,可能需要备件——这在我们的位置(埃塞俄比亚)很难。
所以我想问一下管理过刀片服务器的有经验的管理员:你的经验是什么?它们是否会整体下降 - 什么是合理的共享基础设施,可能会失败?
这个问题可以扩展到共享存储。我再说一次,我们需要两个存储单元而不是一个——供应商再次说,这些东西非常坚固,预计不会出现故障。
好吧 - 我简直不敢相信,这样一个关键的基础设施在没有冗余的情况下会非常可靠 - 但也许你可以告诉我,你是否有成功的基于刀片的项目,它的核心部件(机箱、存储...... )
目前,我们看看惠普——因为 IBM 看起来太贵了。
考虑到许多服务器级系统都配备了ECC RAM,在部署之前烧入内存 DIMM是否必要或有用?
我遇到过这样一种环境,其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。
服务器硬件主要是Supermicro,因此 RAM 来自各种供应商;不是直接来自制造商,如Dell Poweredge或HP ProLiant。
这是一个有用的练习吗?在我过去的经验中,我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗?我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安置的触发因素。
在我的 DL380 G6 上的 ILO2 固件 2.15 中,Temp 30 传感器(位置:I/O 板区域)指示 65C,我的风扇以 78% 的容量运行。该区域的注意级别为 110C,临界级别为 115C。
有谁知道 Temp 30 传感器在哪里?还有其他 8 个传感器指向“I/O 板区域”位置。
谢谢,
亚历山大
我的两个热插拔驱动器上的活动环连续旋转(它们采用 RAID 1 配置)。两者的驱动器状态都是稳定的绿色。
这是正常的吗?iotop 命令显示没有活动...总读/写零 B/s。
编辑:但是,我不确定我是否正确使用了该命令。当我打开 iotop 时只是 SSH 连接,它没有选择文件写入...
任何建议都会很棒。
谢谢。
hp ×3
hardware ×2
hp-proliant ×2
memory ×1
monitoring ×1
networking ×1
redundancy ×1
sata ×1
storage ×1
supermicro ×1