与数据库正常运行时间相关的估计恢复时间和重做队列大小

Question

有人可以帮我弄清楚我的理解是否正确：

在我的可读辅助副本的 AG 仪表板上，我看到：

那么，如果我的辅助 AG 需要将节点/故障转移或 SQL 重新启动作为活动的一部分，这究竟意味着什么？

这是否意味着我的二级数据库需要 4598 秒才能使用 24 GB 的重做队列启动这个数据库？

我很担心，因为我们的一个生产秒方在白天的大部分时间里重做大小为 400 GB，而从 AG 仪表板恢复时间将近 10 小时。这是否意味着所谓的 DR 受到了损害？

我刚刚做了一个测试故障转移，正如我从错误日志消息中看到的那样，数据库按预期进行了恢复，并看到它在 1235 秒内完成。只是好奇，因为估计恢复的数量还差得很远。这只是为了解释我的业务用户帮助他们我们正在谈论的中断窗口。

Answer 1

Estimated Recovery Time 是 SQL Server 认为运行使数据库进入读写可用状态所需的恢复过程所需的时间。4600 秒是一个很长的时间。你应该担心。

REDO 队列是需要重播到辅助数据库中以便数据库作为主数据库联机的数据量。24GB 很多。

公司的恢复点和恢复时间目标是什么？这两个指标将告诉您估计恢复时间和重做队列是否有问题。

对于二级数据库（DB_sec），其RTO的计算和显示基于其redo_queue_size和redo_rate：

RTO的计算公式为：

显然，重做速率（恢复发生的速度）是决定辅助节点作为主节点上线的速度的决定性因素。

如果底层磁盘的速度可能会波动，就像质量较低的 HDD 或云服务一样，您很可能会得到一个不能反映现实的估计。