Dou*_*xem
14
sla
outage
上周我们发生了相当严重的中断,影响了几项服务,这使我们无法与客户达成 SLA。现在一切都已解决,我正在进行事后审查。
通过这次审查,我想提出一份内部文件,描述中断、其影响、我们的响应和解决方案。我想提出一个相当标准的形式以供将来重用。我已经在下面列出了我的想法,但还应该包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?
- 摘要事件的执行级别摘要。
- 受影响的服务
- 影响对我们的用户和 SLA 有何影响?是否存在以美元计算的成本、错过的交易、失去的客户等?
- 中断持续时间对于每个受影响的服务,如果有差异
- 原因包括主要和次要原因
- 解析度
- 事件时间表通知、与外部供应商的联系、客户通知、响应等。
- 我们的响应存在问题 我们对中断的响应是否没有按计划进行?正确的人通知?供应商是否履行了合同义务?
- 要采取的预防措施我们如何防止这种中断再次发生或减少其影响?
- 检测方法我们检测到这次中断的效果如何?我们将来如何改进检测?
- 在未来的停电响应中进行的更改
尽量将帖子简化为一项和解释,并且可以使用最高投票的答案更新此帖子。