您参与过的主要停电是什么?

Mar*_*mos 7 outage

中断是我们试图避免的一些事情,但它们是不可避免的:它们会发生(我们希望很少发生),我们必须知道如何处理它们(并从中学习)。

那么,您参与过的主要停电是什么?你和你的团队是如何解决这个问题的?你为未来学到了什么?请分享您的想法:)

mpe*_*ez0 6

我们有一条加热蒸汽管穿过我们的数据中心破裂处。非常热,到处都是冷凝和石棉绝缘材料。清理期间停电数周。

好的,组的东西是 BGP 配对的,在多个数据中心之间进行负载平衡。我们有一部分用户在他们当前的交易被转移之前看到了 30 秒的冻结。许多其他项目的中断时间长达数天,每个人都加班加点以帮助其他人。

经验教训:首先做你的连续性计划,然后建立你的系统来支持你的结论:

  • 如果您无法忍受一周的停机时间,请计划并练习您的转移。代替主要/故障转移站点,使用蓝色/金色并每两周轮换一次,以确保所有内容都已更新且可用。
  • 如果您无法忍受半小时到一天左右的时间,请在活动站点之间进行负载平衡。您将花费更少的时间和精力来设置它,而不是在压力下尝试按时间进行恢复。
  • 如果您不能容忍几分钟的停机时间,则需要付出很多努力才能实现真正的高可用性。最好的办法是聘请专家顾问。
  • 为了完成层次结构,如果您不能容忍几秒钟的停机时间,则需要专门的硬件和专门的设计。你最好专家


l0c*_*b0x 4

我几乎每天都会遭遇断电(监控 44 个站点的 WAN 链接)。“小故障”是指持续时间少于 5 分钟且大多数时间“未被注意到”的故障(出于某种原因,NOC 只监控超过 5 分钟的中断)。我尝试与该站点进行通信,看看这是否是内部问题,并在问题“未知”时检查路由器日志。

我发现在处理中断时,沟通是关键(这是轻描淡写的说法!)。当您正在排除故障或试图查明究竟发生了什么时,请不要等待接到电话。确保你传达的信息是你知道他们情绪低落并且你正在努力解决。给他们一个时间范围,告诉他们您何时会回复他们,向他们提供最新情况 (ETR)。不要让他们认为你已经忘记了他们,确保他们知道有人正在关注他们的问题。您给他们打电话,他们就不必给您打电话。

值得庆幸的是,在我的监管下,一个网站宕机的时间最长为 7 个小时(这是一个工作日上午 10 点到下午 5 点之间的时间)。如果不是因为所有相关方之间缺乏良好的沟通,时间本应该缩短几个小时。几乎,问题没有得到适当升级,并且由于“有人正在处理它”的假设,问题(相对于网站而言)永远得到解决。