中断是我们试图避免的一些事情,但它们是不可避免的:它们会发生(我们希望很少发生),我们必须知道如何处理它们(并从中学习)。
那么,您参与过的主要停电是什么?你和你的团队是如何解决这个问题的?你为未来学到了什么?请分享您的想法:)
我们有一条加热蒸汽管穿过我们的数据中心破裂处。非常热,到处都是冷凝和石棉绝缘材料。清理期间停电数周。
好的,我组的东西是 BGP 配对的,在多个数据中心之间进行负载平衡。我们有一部分用户在他们当前的交易被转移之前看到了 30 秒的冻结。许多其他项目的中断时间长达数天,每个人都加班加点以帮助其他人。
经验教训:首先做你的连续性计划,然后建立你的系统来支持你的结论:
我几乎每天都会遭遇断电(监控 44 个站点的 WAN 链接)。“小故障”是指持续时间少于 5 分钟且大多数时间“未被注意到”的故障(出于某种原因,NOC 只监控超过 5 分钟的中断)。我尝试与该站点进行通信,看看这是否是内部问题,并在问题“未知”时检查路由器日志。
我发现在处理中断时,沟通是关键(这是轻描淡写的说法!)。当您正在排除故障或试图查明究竟发生了什么时,请不要等待接到电话。确保你传达的信息是你知道他们情绪低落并且你正在努力解决。给他们一个时间范围,告诉他们您何时会回复他们,向他们提供最新情况 (ETR)。不要让他们认为你已经忘记了他们,确保他们知道有人正在关注他们的问题。您给他们打电话,他们就不必给您打电话。
值得庆幸的是,在我的监管下,一个网站宕机的时间最长为 7 个小时(这是一个工作日上午 10 点到下午 5 点之间的时间)。如果不是因为所有相关方之间缺乏良好的沟通,时间本应该缩短几个小时。几乎,问题没有得到适当升级,并且由于“有人正在处理它”的假设,问题(相对于网站而言)永远得到解决。
归档时间: |
|
查看次数: |
446 次 |
最近记录: |