jes*_*esi 10 sql-server transaction-log availability-groups transactional-replication sql-server-2014
今天早上,我被我们的一个数据库上的事务日志已满警报唤醒。这个服务器是一个alwayson 集群,也是一个事务复制订阅者。我检查了 log_reuse_wait_desc,它显示了 logbackup。4 天前有人不小心禁用了 logbackup 作业,我重新启用了日志备份作业,日志被清除了。由于是凌晨 4 点,我想我会在那天早上晚些时候去办公室并缩小日志,因为它已经增长到 400GB。
上午 10 点 - 我在办公室,我在缩小之前检查了日志使用情况,大约是 16%。我很惊讶并检查了 log_reuse_wait_desc,它显示了复制。我很困惑,因为这是一个复制订阅者。然后我们看到 db 为 CDC 启用,并认为这可能是原因,因此禁用 CDC,现在 log_reuse_wait_desc 显示 AVAILABILITY_REPLICA。
与此同时,日志使用量仍在稳步增长,目前为 17%。我检查了alwayson仪表板并检查了发送和重做队列,两者几乎为零。我不确定为什么日志重用显示为 AVAILABILITY_REPLICA 并且无法清除日志。
知道为什么会这样吗?
如果你这样做:
SELECT * FROM sys.databases
Run Code Online (Sandbox Code Playgroud)
log_reuse_wait_desc 显示 AVAILABILITY_REPLICA,这意味着 SQL Server 正在等待将日志数据发送到您的 Always On 可用性组副本之一。由于网络缓慢,其中一个副本可能滞后,或者可能完全关闭。
如果您查看 AG 仪表板并没有显示任何队列,则您可能是线程耗尽的受害者。AG 仪表板在工作线程耗尽后停止更新是一个已知问题。您需要直接检查每个副本的状态,而不是依赖于主要副本。尼克在 Connect 项目中的注释说您可以更改副本的属性来重新启动复制,但这并不总是有效(特别是如果您在副本上有数百个数据库且需要发送大量数据,并且重新启动复制只会导致工作线程再次耗尽。)
如果最后一个人设置了一个 AG 副本并且它不应该再存在了,那么是时候删除那个 AG 和/或副本了。请注意应用程序没有指向侦听器名称以连接到您的 SQL Server。
小智 1
迟到总比不到好:我们有类似的病例,相同的症状。
查看:
SELECT log_reuse_wait_desc FROM sys.databases where name = '..'
Run Code Online (Sandbox Code Playgroud)
在所有 AlwaysOn 辅助实例上。
如果 log_reuse_wait_desc位于REPLICATION其中之一,则将主实例切换到实例,并禁用其上的复制。如果还没有复制,请使用sp_removedbreplication.