Ant*_*ito 14 hardware hyper-v hp-proliant
我一直在研究在我们的生产环境中运行的 HP Gen9 服务器的 MTTF、MTBF、MTBR 和 MTBF。
我的问题的根源,应该担心与否。
我似乎无法获得任何好的数据,因为每台服务器都有多种硬件。
在我上一家公司,我们运行了大约 2000 台戴尔服务器 r210 r410 r710 我会说平均每天大约有 5 台服务器出现某种故障。因此,大约 0.25% 的服务器出现严重故障,需要更换部件才能再次使用。
我上一家公司的所有东西都设置在一个 HA 对中,N+2 基础设施,所以对生产没有影响。我们能够更换服务器并继续前进
在我现在的办公室,我们运行 9 台服务器,(HP Gen9,56 台虚拟机的 Hyper-V)我们手头没有很多替换部件,而且数据中心也没有管理,所以如果有东西死了,我们必须开车大约 45 分钟来更换任何事物。
我的 CTO 和 IT 经理似乎很担心,他们去年有大约 2.5 天的停机时间,我一直在预言我们需要对服务器进行集群,但他们认为没有必要。
这里有错误或正确吗?不知道该怎么办。
我知道如果 CTO 发生什么事,这不是我的责任。这是一家非常小的公司,只有 CTO、IT 经理、我自己(开发运营)和 1 个帮助台人员。
总的来说,运行生产环境的经验非常有限,很多事情的设置方式我称之为初级水平,在我到达那里之前,我的 CTO 和 IT 经理都不太了解集群。他们正在一个没有 HA 的情况下设置 DR 的项目进行中,我预测过但失败了。
不必担心 MTTF、MTBF、MTBR 和 MTBF 数字...为什么这些数字适用于您环境的具体情况?
服务器具有内部冗余,在生产中可以极其稳定。但这取决于您的环境、磁盘阵列/组成、磁盘类型、RAM 数量、CPU 配置、热特性、功率等。
采用某种形式的高可用性可以减少停机的可能性,并为您提供在发生故障时转移工作负载的位置。
这是一个财务和操作风险问题。
也许从独立到集群的增量成本足够高,以至于没有商业意义?也许 2.5 天的停机时间(约 99.3% 的可用性)对于您的操作来说已经足够了。您应该关注异地保护和良好的备份。您的所有 HP Gen9 系统现在均享有制造商保修,因此您可以获取部件。如果您有 RAID、冗余电源/风扇和稳定的电源,那么您已经涵盖了最关键的区域。
从财务角度考虑这一点,概述风险和相关成本,并尝试为您想要的东西提出令人信服的商业案例。
| 归档时间: |
|
| 查看次数: |
2224 次 |
| 最近记录: |