HP ProLiant Gen9 的 MTTF、MTBF、MTBR 和 MTBF

Question

HP ProLiant Gen9 的 MTTF、MTBF、MTBR 和 MTBF

Ant*_*ito 14 hardware hyper-v hp-proliant

我一直在研究在我们的生产环境中运行的 HP Gen9 服务器的 MTTF、MTBF、MTBR 和 MTBF。

我的问题的根源，应该担心与否。

我似乎无法获得任何好的数据，因为每台服务器都有多种硬件。

在我上一家公司，我们运行了大约 2000 台戴尔服务器 r210 r410 r710 我会说平均每天大约有 5 台服务器出现某种故障。因此，大约 0.25% 的服务器出现严重故障，需要更换部件才能再次使用。

我上一家公司的所有东西都设置在一个 HA 对中，N+2 基础设施，所以对生产没有影响。我们能够更换服务器并继续前进

在我现在的办公室，我们运行 9 台服务器，（HP Gen9，56 台虚拟机的 Hyper-V）我们手头没有很多替换部件，而且数据中心也没有管理，所以如果有东西死了，我们必须开车大约 45 分钟来更换任何事物。

我的 CTO 和 IT 经理似乎很担心，他们去年有大约 2.5 天的停机时间，我一直在预言我们需要对服务器进行集群，但他们认为没有必要。

这里有错误或正确吗？不知道该怎么办。

我知道如果 CTO 发生什么事，这不是我的责任。这是一家非常小的公司，只有 CTO、IT 经理、我自己（开发运营）和 1 个帮助台人员。

总的来说，运行生产环境的经验非常有限，很多事情的设置方式我称之为初级水平，在我到达那里之前，我的 CTO 和 IT 经理都不太了解集群。他们正在一个没有 HA 的情况下设置 DR 的项目进行中，我预测过但失败了。

Answer 1

eww*_*ite 3

不必担心 MTTF、MTBF、MTBR 和 MTBF 数字...为什么这些数字适用于您环境的具体情况？

服务器具有内部冗余，在生产中可以极其稳定。但这取决于您的环境、磁盘阵列/组成、磁盘类型、RAM 数量、CPU 配置、热特性、功率等。

采用某种形式的高可用性可以减少停机的可能性，并为您提供在发生故障时转移工作负载的位置。

这是一个财务和操作风险问题。

也许从独立到集群的增量成本足够高，以至于没有商业意义？也许 2.5 天的停机时间（约 99.3% 的可用性）对于您的操作来说已经足够了。您应该关注异地保护和良好的备份。您的所有 HP Gen9 系统现在均享有制造商保修，因此您可以获取部件。如果您有 RAID、冗余电源/风扇和稳定的电源，那么您已经涵盖了最关键的区域。

从财务角度考虑这一点，概述风险和相关成本，并尝试为您想要的东西提出令人信服的商业案例。

归档时间：	8 年，1 月前
查看次数：	2224 次
最近记录：	8 年，1 月前