将较小的数据库保留在可用性组之外(并通过备份恢复)以避免集群/AG 问题导致数据库脱机?

Bob*_*tor 3 sql-server backup clustering restore availability-groups

我们有多个可用性组,每个可用性组都混合有大型数据库和小型数据库,所有这些都至关重要。它们都是异步提交,因为它们的辅助数据中心位于不同的数据中心,虽然我们希望快速恢复/故障转移,但一些数据丢失是可以接受的。

我们在两个节点+文件共享见证集群中的一些节点上遇到了问题,其中集群由于某种未知原因脱机,导致每个 AG 数据库都脱机。主节点本身没有问题,因此主节点上的其他非 AG 数据库仍然可用。一些最关键的数据库很小(<100GB),所以我想我们可能希望将它们从 AG 中取出并让它们成为普通数据库,这样集群问题不会影响它。我们会将其日志备份计划更改为 5 分钟之类的时间,以最大限度地减少恢复点目标 (rpo),并将任何恢复作为从备份进行的正常恢复来处理。

AG 在工作时表现出色,但在不工作时则需要排除故障并重新上线。对这个设计有什么想法吗?谢谢!

Sea*_*ser 5

我们在两个节点+文件共享见证集群中的一些节点上遇到了问题,其中集群由于某种未知原因脱机,导致每个 AG 数据库都脱机。

随着:

[...] 所以我想我们可能希望将它们从 AG 中取出并让它们成为普通的数据库,这样集群问题不会影响它。

相反,我会找出集群失去仲裁的原因,然后采取适当的措施来避免这种情况发生。

它们都是异步提交,因为它们的辅助数据中心位于不同的数据中心,虽然我们希望快速恢复/故障转移,但一些数据丢失是可以接受的。

FSW 位于哪里?如果 HA 位于这些站点之一,那么它充其量是有问题的。您可能只有这两个站点,我并不是说只有两个站点,但是应该采取其他措施来实现 HA,尽管看起来您真的只想要 DR/BC。

AG 在工作时表现出色,但在不工作时则需要排除故障并重新上线。

我和他们一起大量工作。在大多数情况下,设置中的配置或假设是问题所在(并不是说它在这里)。

[...]我想我们可能希望将它们从 AG 中取出并让它们成为普通的数据库,这样集群问题不会影响它。

如果你走这条路,而我不会,那么我就会摆脱所有的 AG,就这样。不要一半做某事一半做其他事,您将在解决方案之间创建对等性,并且只会增加更多的手动工作和故障排除问题。

听起来您更愿意使用日志传送,或者如果您仍然想使用 AG,则将 AG 分发到其他数据中心。