我们应该将 N+N 冗余疯狂走多远?

Bra*_*ann 5 hardware redundancy

至少可以说,冗余的行业标准相当高。为了说明我的观点,这是我当前的设置(我正在运行金融服务)。

每台服务器都有一个 RAID 阵列,以防一个硬盘出现问题

.... 万一服务器出现问题,它会被另一台相同的备用服务器镜像

...两台服务器不能同时停机,因为我有冗余电源和冗余网络连接等

...我的托管中心本身有两个不同的能源供应商的双电源连接,冗余网络连接和冗余厕所,以防两个保安(对不起,四个)需要同时使用它

... 万一出现问题(核武器?想不出别的了),我在另一个国家有另一个相同的托管设施,具有完全相同的设置。


  • 声誉受损的成本 = 非常高
  • 我的设置出现硬件故障的概率:<<1%
  • 使用较少偏执设置的硬件故障概率:<<1% ASWELL
  • 我们的应用程序代码中软件故障的概率:>>1%(如果您的软件从未因为错误而停机,那么我建议您仔细检查您的报告/监控系统是否停机。甚至 SQLServer - 可以说是由聪明的人开发和测试的方法论强的人 - 有时会失败)

换句话说,我觉得我可以在我母亲的公寓里放一台便宜的笔记本电脑,而人为/软件问题仍然是我的更高风险。

当然,还有其他一些事情需要考虑,例如:

  • 可扩展性
  • 数据安全
  • 客户对您符合行业标准的期望

但是,在两个不同的数据中心托管两台服务器(没有额外的备用服务器,也没有除了我的托管设施提供的网络设备之外的两倍网络设备)将为我提供我需要的可扩展性和物理安全性。

我觉得我们已经达到了冗余只是一种交流工具的地步。老实说,99.999% 的正常运行时间和 99.9999% 的正常运行时间之间有什么区别,当你知道你会因为软件错误而停机 1% 的时候?

你把你的冗余疯狂推到什么程度?

mrd*_*nny 8

当冗余的成本高于停机而更换损坏的成本时,冗余就太多了。

  • 这一切都取决于您的商业模式,以及企业愿意接受的风险。在我公司的案例中,我们数据中心内的所有东西都是完全冗余的(被动 SQL Server、多个 Web 服务器、所有东西都是双宿主的冗余网络交换机)。然而,我们没有多余的站点,因为我们无法证明降低洛杉矶互联网中心脱机风险的成本是合理的(可能不太可能发生)。然而,Visa 可能觉得多个 CoLo 一分钱一分货,因为他们愿意为此付出代价。这里没有正确答案。 (2认同)

小智 0

你的声誉值多少钱?如果您的软件出现故障,您会尽最大努力保护客户的数据,提供最佳的硬件/集群冗余。如果您达到了最佳点,那么就应该在变更/质量保证管理上投入更多预算。