相关疑难解决方法(0)

刀片机箱故障概率

在我的组织中,我们正在考虑购买刀片服务器——而不是机架服务器。当然,技术供应商也让它们听起来非常好。我在不同论坛上经常看到的一个问题是,理论上存在服务器机箱停机的可能性——这将导致所有刀片停机。这是由于共享基础设施。

我对这种可能性的反应是有冗余和两个机箱而不是一个(当然非常昂贵)。

有些人(包括例如 HP 供应商)试图说服我们,由于许多冗余(冗余电源等),机箱极不可能发生故障。

我这边的另一个担忧是,如果出现故障,可能需要备件——这在我们的位置(埃塞俄比亚)很难。

所以我想问一下管理过刀片服务器的有经验的管理员:你的经验是什么?它们是否会整体下降 - 什么是合理的共享基础设施,可能会失败?

这个问题可以扩展到共享存储。我再说一次,我们需要两个存储单元而不是一个——供应商再次说,这些东西非常坚固,预计不会出现故障。

好吧 - 我简直不敢相信,这样一个关键的基础设施在没有冗余的情况下会非常可靠 - 但也许你可以告诉我,你是否有成功的基于刀片的项目,它的核心部件(机箱、存储...... )

目前,我们看看惠普——因为 IBM 看起来太贵了。

networking hardware storage redundancy blade-chassis

48
推荐指数
3
解决办法
1万
查看次数

服务器级硬件有必要烧内存吗?

考虑到许多服务器级系统都配备了ECC RAM部署之前入内存 DIMM是否必要或有用?

我遇到过这样一种环境,其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。

服务器硬件主要是Supermicro,因此 RAM 来自各种供应商;不是直接来自制造商,如Dell PoweredgeHP ProLiant

这是一个有用的练习吗?在我过去的经验中,我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗?我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安置的触发因素。

  • 你烧入你的RAM吗?
  • 如果是这样,您使用什么方法来执行测试?
  • 它是否在部署之前发现了任何问题?
  • 与不执行该步骤相比,老化过程是否导致任何额外的平台稳定性?
  • RAM添加到现有正在运行的服务器时,您会怎么做?

hardware memory hp supermicro stress-testing

33
推荐指数
6
解决办法
5976
查看次数

HP DL380 G6:温度传感器 30(I/O 板区域)在哪里?

在我的 DL380 G6 上的 ILO2 固件 2.15 中,Temp 30 传感器(位置:I/O 板区域)指示 65C,我的风扇以 78% 的容量运行。该区域的注意级别为 110C,临界级别为 115C。

有谁知道 Temp 30 传感器在哪里?还有其他 8 个传感器指向“I/O 板区域”位置。

谢谢,

亚历山大

monitoring hp physical-environment hp-proliant

5
推荐指数
1
解决办法
2万
查看次数

HP SATA 热插拔活动灯和 B120i 阵列控制器

我的两个热插拔驱动器上的活动环连续旋转(它们采用 RAID 1 配置)。两者的驱动器状态都是稳定的绿色。

这是正常的吗?iotop 命令显示没有活动...总读/写零 B/s。

编辑:但是,我不确定我是否正确使用了该命令。当我打开 iotop 时只是 SSH 连接,它没有选择文件写入...

任何建议都会很棒。

谢谢。

hp sata hp-smart-array hp-proliant

2
推荐指数
1
解决办法
2589
查看次数