当一切都崩溃时,你的清单是什么?

Jon*_*way 40 disaster-recovery

用户无法访问他们的电子邮件,CEO 无法访问公司的主页,您的寻呼机只是发出“911”代码。当一切都爆炸时你会怎么做?

Wed*_*dge 59

保持冷静

不要惊慌。呼吸!(来自横膈膜,它有帮助。)如果你学习过冥想,那也有帮助。

当面临极端压力时,您的身体会进入“逃跑或战斗”模式,因为您的身体认为自己处于生死攸关的境地。此时,您的身体实际上会减少向大脑某些部位输送的血液,从而削弱推理等功能。这有效地降低了您的智商,因为本能而不是理性开始支配您的大脑功能。如果您曾经参与或目睹过激烈的争论,您可能会意识到这些症状,因为人们情绪高涨,理性需要休假。之后,当人们有机会冷静下来时,他们会更容易接受犯错或犯错,并且更能看到另一面,但在当下的热度中,就不那么容易了。

保持冷静并保持对自己的智慧将使您的大脑充分发挥功能,并确保您根据证据和理由而不是情绪和恐惧做出理性决定。

分流

有效地利用有限的资源以最低的成本获得最大的收益在这里至关重要。尽早做出决定,哪些事情必须立即解决,哪些可以等待一段时间(几小时、几天),哪些可以无限期地等待。还要学会意识到某些东西何时无法挽救且不值得保存(例如,一半的路由器熔化了,即使它是您唯一的路由器,您也无法保存它,购买新的并在匆忙后在现场获得它或找到可以暂时填补空白)。

保持态势感知

不要让你的注意力被一些有趣的问题或你还不太了解的东西所困。继续关注大局,让最重要的事情发挥作用。

使用科学方法

形成假设。确定你将如何检验这个假设。收集数据以检验假设。还要寻找不确认的数据。细化您的假设并根据需要多次重复该循环,直到您对假设有足够的信心采取行动。

务实

现在不是教条的时候。从灾难中恢复时,在这里和那里采取一些捷径是可以的。这本质上是在累积技术债务。在许多公司,灾难性的失败意味着收入的灾难性损失。即使在不稳定的基础上,也最好让事情运行起来,而不是刻意磨练并冒着公司生计的风险。与往常一样,判断在这里是极其重要的。有时,支撑指向服务器机架的箱式风扇是有意义的,有时则不然。

照顾自己

你在这个紧急情况下工作了多久?你上一次喝水是什么时候?你上一次吃东西是什么时候?你醒了多久?不要仅仅因为有紧急情况就让自己筋疲力尽,花点时间保持水分、进食和休息(以防万一这是一个漫长的、多天的艰苦跋涉)。

招聘帮助

几乎可以肯定,您的公司中有许多才华横溢的人,他们既有动力又有能力提供帮助。不过要小心让太多人跑来跑去并给彼此带来麻烦。还要警惕让他们经历“演习”,以免惹恼他们。找到已经想提供帮助的人,让他们完成有针对性的任务,并确保人们相互沟通。

交流

沟通至关重要。没有什么比未知更可怕。当人们除了知道某件东西坏了之外一无所知时,一个空洞的声明它会在 X 小时内恢复只会稍微让人放心(在 X 小时过去并且事情仍然坏了之后更不放心)。压力可以引导您给出过于乐观的 WAG 时间估计,但这是错误的做法。不要只说你正在努力,不要只说事情会在 X 时间内解决。敞开心扉,展示你的过程,详细说明你的进步和挫折。提供对问题的洞察、您的跟踪过程以及您解决问题的计划(尽管不要在细节上淹没人们)。表明问题不是棘手的,表明事情最终会得到解决,表明有能力解决问题的人,


Sam*_*gan 35

第一个答案是保持冷静!我了解到,恐慌往往只会让事情变得更糟。一旦实现了,接下来的事情就是实际确定问题是什么。来自用户和经理的抱怨会从各个角度向您涌来,告诉您他们不能做什么,但不会告诉您问题是什么。

一旦你知道了问题,你就可以开始计划修复它并开始给你愤怒的用户一个时间表!

  • 这是一个反应式计划。已经为每个关键业务流程编写并测试了真正的灾难恢复计划。 (3认同)
  • spaulson 肯定:但首先要做的是弄清楚您是否需要激活该计划,或者是否翻转断路器将解决所有问题。 (3认同)

Jau*_* Ho 24

不要惊慌。

  • 拿一条毛巾并留言说“再见,感谢所有的鱼”。 (11认同)
  • 大而友好的红色字母。 (4认同)

Dav*_*ney 22

第 0 步。检查是否有问题的不是您的监控系统


Gle*_*ven 11

立即预订飞往非引渡国家的航班


小智 11

登录到服务器故障


Gle*_*ven 8

首先检查基础知识,这看起来很傻,但是像

  1. 服务器设施的电源是否打开?(如果您在异地托管)
  2. 您的托管服务提供商宕机了吗?

我知道当问题出现在上游时,寻找解决方案可能会浪费很多时间

  • 是的 - 如果一切都失败了 - 检查数据中心 - 和他们的支持论坛。如果有 30 人在线,而通常只有 3 人 - 那就太棒了。 (2认同)

Dyl*_*tie 6

我ping东西。之后会发生什么,这取决于 ping 的结果。


Ren*_*soo 6

抱歉,这个问题已经在最喜欢的系统管理员卡通中得到了完美的回答:

呆伯特容灾计划