我们有一个生产 SQL Server 数据库服务器,将事务日志备份传送到两台备用服务器。灾难恢复计划已经完成:我们有一个完整的程序和经过培训的人员,可以将备用服务器投入生产、启动复制、启用作业等,并将停机时间降至最低。
正在讨论的问题不是应急计划本身,而是将备用服务器投入生产并丢失,在最坏的情况下,12 分钟的信息(事务日志备份每 10 分钟运行一次,速度非常快)复制到其他服务器)。
做出决定可能很困难,因为我们可能会浪费时间试图找出问题。另一方面,问题可能很容易解决,我们可以在不使用其他服务器的情况下将服务器重新投入生产。
我们明白,一旦系统出现故障,情况会变得非常紧张,我们认为在这些情况下,最好有一个标准的程序和最少的决定。
所以,我们有一个两难选择。是在主服务器出现问题时更换服务器更好,还是尝试识别并解决主服务器中的问题更好?大家怎么看这件事?
您可能想要使用的框架是在出现问题时决定这一点的两个时间窗口。第一个时间窗口的结束将是一个软限制,第二个将是切换时间的硬限制。
软限制将是第一个切入点。如果您一直在尝试解决问题,但与开始时相比离解决问题更近了,您将切换到软限制。如果你认为你已经接近在软限制下解决问题,那么你会继续前进直到硬限制。例如,软限制是 5 分钟,硬限制可能是从尝试解决问题开始的 8 分钟。在硬限制下,您无论如何都要切换。
您使用的窗户的长度必须自己决定。您还必须弄清楚是否要包括在实际开始查看问题之前所需的时间。
当然,你也可以随心所欲地做你认为当时最好的事情——不计划每一个最后的小细节可能是可以的。