记录停机以进行事后审查

Dou*_*xem 14 sla outage

上周我们发生了相当严重的中断,影响了几项服务,这使我们无法与客户达成 SLA。现在一切都已解决,我正在进行事后审查。

通过这次审查,我想提出一份内部文件,描述中断、其影响、我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我已经在下面列出了我的想法,但还应该包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?

  • 摘要事件的执行级别摘要。
  • 受影响的服务
  • 影响对我们的用户和 SLA 有何影响?是否存在以美元计算的成本、错过的交易、失去的客户等?
  • 中断持续时间对于每个受影响的服务,如果有差异
  • 原因包括主要和次要原因
  • 解析度
  • 事件时间表通知、与外部供应商的联系、客户通知、响应等。
  • 我们的响应存在问题 我们对中断的响应是否没有按计划进行?正确的人通知?供应商是否履行了合同义务?
  • 要采取的预防措施我们如何防止这种中断再次发生或减少其影响?
  • 检测方法我们检测到这次中断的效果如何?我们将来如何改进检测?
  • 在未来的停电响应中进行的更改

尽量将帖子简化为一项和解释,并且可以使用最高投票的答案更新此帖子。

Jay*_*ayC 6

虽然它可以包含在要采取预防措施中,但我建议您有一个检测方法部分,您可以使用它来记录真正的症状是什么,以及如果问题再次发生,您可以如何(更快地)检测到问题,最好使用自动化。


Mar*_*ark 2

看起来不错。我只想添加以下内容:

影响/后果:中断的后果是什么 - 谁受到了影响,哪些 SLA 被违反(如果有),是否有任何连锁反应?