相关疑难解决方法(0)

刀片机箱故障概率

在我的组织中，我们正在考虑购买刀片服务器——而不是机架服务器。当然，技术供应商也让它们听起来非常好。我在不同论坛上经常看到的一个问题是，理论上存在服务器机箱停机的可能性——这将导致所有刀片停机。这是由于共享基础设施。

我对这种可能性的反应是有冗余和两个机箱而不是一个（当然非常昂贵）。

有些人（包括例如 HP 供应商）试图说服我们，由于许多冗余（冗余电源等），机箱极不可能发生故障。

我这边的另一个担忧是，如果出现故障，可能需要备件——这在我们的位置（埃塞俄比亚）很难。

所以我想问一下管理过刀片服务器的有经验的管理员：你的经验是什么？它们是否会整体下降 - 什么是合理的共享基础设施，可能会失败？

这个问题可以扩展到共享存储。我再说一次，我们需要两个存储单元而不是一个——供应商再次说，这些东西非常坚固，预计不会出现故障。

好吧 - 我简直不敢相信，这样一个关键的基础设施在没有冗余的情况下会非常可靠 - 但也许你可以告诉我，你是否有成功的基于刀片的项目，它的核心部件（机箱、存储...... )

目前，我们看看惠普——因为 IBM 看起来太贵了。

networking hardware storage redundancy blade-chassis

Chr*_*sZZ

2013 12-21

48
推荐指数

3
解决办法

1万
查看次数

服务器级硬件有必要烧内存吗？

考虑到许多服务器级系统都配备了ECC RAM，在部署之前烧入内存 DIMM是否必要或有用？

我遇到过这样一种环境，其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。

服务器硬件主要是Supermicro，因此 RAM 来自各种供应商；不是直接来自制造商，如Dell Poweredge或HP ProLiant。

这是一个有用的练习吗？在我过去的经验中，我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗？我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应，因为 ECC 阈值通常是保修安置的触发因素。

你烧入你的RAM吗？
如果是这样，您使用什么方法来执行测试？
它是否在部署之前发现了任何问题？
与不执行该步骤相比，老化过程是否导致任何额外的平台稳定性？
将RAM添加到现有正在运行的服务器时，您会怎么做？

hardware memory hp supermicro stress-testing

eww*_*ite

2013 09-27

33
推荐指数

6
解决办法

5976
查看次数

HP DL380 G6：温度传感器 30（I/O 板区域）在哪里？

在我的 DL380 G6 上的 ILO2 固件 2.15 中，Temp 30 传感器（位置：I/O 板区域）指示 65C，我的风扇以 78% 的容量运行。该区域的注意级别为 110C，临界级别为 115C。

有谁知道 Temp 30 传感器在哪里？还有其他 8 个传感器指向“I/O 板区域”位置。

谢谢，

亚历山大

monitoring hp physical-environment hp-proliant

Ale*_*van

2013 06-08

5
推荐指数

1
解决办法

2万
查看次数

HP SATA 热插拔活动灯和 B120i 阵列控制器

我的两个热插拔驱动器上的活动环连续旋转（它们采用 RAID 1 配置）。两者的驱动器状态都是稳定的绿色。

这是正常的吗？iotop 命令显示没有活动...总读/写零 B/s。

编辑：但是，我不确定我是否正确使用了该命令。当我打开 iotop 时只是 SSH 连接，它没有选择文件写入...

任何建议都会很棒。

谢谢。

hp sata hp-smart-array hp-proliant

use*_*346

2014 06-10

2
推荐指数

1
解决办法

2589
查看次数

标签统计

hp ×3

hardware ×2

hp-proliant ×2

blade-chassis ×1

hp-smart-array ×1

memory ×1

monitoring ×1

networking ×1

physical-environment ×1

redundancy ×1

sata ×1

storage ×1

stress-testing ×1

supermicro ×1

刀片机箱故障概率

服务器级硬件有必要烧内存吗？

HP DL380 G6：温度传感器 30（I/O 板区域）在哪里？

HP SATA 热插拔活动灯和 B120i 阵列控制器

标签 统计

标签统计