Chr*_*sZZ 48 networking hardware storage redundancy blade-chassis
在我的组织中,我们正在考虑购买刀片服务器——而不是机架服务器。当然,技术供应商也让它们听起来非常好。我在不同论坛上经常看到的一个问题是,理论上存在服务器机箱停机的可能性——这将导致所有刀片停机。这是由于共享基础设施。
我对这种可能性的反应是有冗余和两个机箱而不是一个(当然非常昂贵)。
有些人(包括例如 HP 供应商)试图说服我们,由于许多冗余(冗余电源等),机箱极不可能发生故障。
我这边的另一个担忧是,如果出现故障,可能需要备件——这在我们的位置(埃塞俄比亚)很难。
所以我想问一下管理过刀片服务器的有经验的管理员:你的经验是什么?它们是否会整体下降 - 什么是合理的共享基础设施,可能会失败?
这个问题可以扩展到共享存储。我再说一次,我们需要两个存储单元而不是一个——供应商再次说,这些东西非常坚固,预计不会出现故障。
好吧 - 我简直不敢相信,这样一个关键的基础设施在没有冗余的情况下会非常可靠 - 但也许你可以告诉我,你是否有成功的基于刀片的项目,它的核心部件(机箱、存储...... )
目前,我们看看惠普——因为 IBM 看起来太贵了。
eww*_*ite 49
机箱完全故障的可能性很低......
在刀片机箱完全失效之前,您可能会在您的设施中遇到问题。
我的经验主要是HP C7000和HP C3000刀片机箱。我还管理过戴尔和 Supermicro 刀片解决方案。供应商有点重要。但总而言之,惠普设备一直很出色,戴尔一直很好,而 Supermicro 缺乏质量和弹性,只是设计很差。我从未经历过惠普和戴尔方面的失败。Supermicro 确实出现了严重的中断,迫使我们放弃了该平台。在 HP 和 Dell 上,我从未遇到过完整的机箱故障。
我见过各种各样的环境,并且受益于在理想的数据中心条件以及一些更恶劣的位置进行安装。在 HP C7000 和 C3000 方面,主要要考虑的是机箱是完全模块化的。这些组件的设计最大限度地减少了影响整个单元的组件故障的影响。
可以这样想... C7000 主机箱由前板、(无源)中板和背板组件组成。结构外壳只是将前部和后部组件固定在一起并支撑系统的重量。几乎每个零件都可以更换……相信我,我已经拆卸了很多零件。主要的冗余在于风扇/冷却、电源和网络管理。管理处理器(HP 的 Onboard Administrator)可以配对以实现冗余,但是服务器可以在没有它们的情况下运行。
装满的外壳 - 前视图。底部的六个电源贯穿机箱的整个深度,并连接到机柜后部的模块化电源背板组件。供电模式可配置:例如3+3或n+1。所以机箱肯定有电源冗余。
装满的外壳 - 后视图。后面的 Virtual Connect 网络模块有一个内部交叉连接,所以我可以失去一侧或另一侧,仍然保持与服务器的网络连接。有六个热插拔电源和十个热插拔风扇。
空外壳 - 前视图。请注意,外壳的这一部分实际上没有任何内容。所有连接都直通到模块化中面板。
中板组装。这就是魔法发生的地方。请注意 16 个独立的下平面连接:每个刀片服务器一个。我有个别服务器插座/托架发生故障而没有杀死整个机箱或影响其他服务器。
电源背板。3ø 单元低于标准单相模块。我改变了我的数据中心的配电,只是更换了电源背板来处理新的供电方式
机箱连接器损坏。这个特殊的外壳在组装过程中掉落,从带状连接器上折断了针脚。这几天都没有引起注意,导致正在运行的刀片机箱着火......
这是中板带状电缆烧焦的残骸。这控制了一些机箱温度和环境监控。里面的刀片服务器继续运行,没有发生任何事故。在预定的停机时间内,我在闲暇时更换了受影响的部件,一切都很好。
sys*_*138 20
八年来,我一直在管理少量刀片服务器,但我还没有发生过导致大量刀片脱机的系统范围故障。由于与电源相关的问题,我已经非常接近了,但还没有发生非外部来源造成的机箱范围故障。
您对机箱确实代表单点故障的观察是正确的,尽管这些天它们确实在其中构建了大量冗余。我使用过的所有刀片系统都有向刀片供电的并行电源,多个网络插孔通过不同的路径,在光纤通道的情况下,从刀片到机架后光端口的多条路径。甚至底盘信息系统也有多条路径。
通过适当的网络工程(冗余 NIC 使用、用于存储的 MPIO),单问题事件完全可以幸免。在我使用这些系统的过程中,我遇到了以下问题,其中没有一个影响超过一个刀片(如果有的话):
不过,TomTom 关于成本的观点非常正确。为了实现完全成本平价,您的刀片式机箱必须满载,并且可能不会使用诸如机架后交换机之类的特殊设备。刀片架在您真正需要密度的区域中很有意义,因为您的空间有限
Tom*_*Tom 14
这个问题可以扩展到共享存储。我再说一次,我们需要两个存储单元而不是一个——供应商再次说,这些东西非常坚固,预计不会出现故障。
其实没有。到目前为止,您的担忧是有道理的,这句话使它们变成了“阅读眼前的东西”。具有完整复制功能的 HA 是存储单元的已知企业功能。重点是SAN(存储单元比刀片机箱复杂得多,最终只是“愚蠢的金属”。刀片机箱中除某些背板外的所有东西都是可更换的——所有模块等都是可更换的,单个刀片是允许失败。没有人说刀片中心本身赋予刀片高可用性。
这与 SAN 有很大不同,SAN 应该 100% 的时间都在运行 - 处于一致状态 - 所以你有复制之类的东西。
那说:注意你的号码。我考虑购买刀片已经有一段时间了,但它们从未具有财务意义。与普通计算机相比,机箱太贵了,刀片并不便宜。我建议将 SuperMicro Twin 架构视为替代方案。
归档时间: |
|
查看次数: |
14393 次 |
最近记录: |