无法在 SQL Server 2014 中创建、加入或添加副本到可用性组

Ali*_*ghi 2 sql-server clustering failover availability-groups

我有一个 2 节点 FCI 和一个非 FCI 节点上的独立 SQL Server 安装。我一直在自动化 FCI、AG 和 DB 副本的配置/安装,到目前为止,它在我的所有测试中都运行良好。

今天执行时出现以下错误:

USE [master]
GO
CREATE AVAILABILITY GROUP [AGName]
WITH (AUTOMATED_BACKUP_PREFERENCE = SECONDARY)
FOR 
REPLICA ON N'Node3\ReadOnly' WITH (ENDPOINT_URL = N'TCP://Node3-blah.blah.com:5022', FAILOVER_MODE = MANUAL, AVAILABILITY_MODE = ASYNCHRONOUS_COMMIT, SESSION_TIMEOUT = 10, BACKUP_PRIORITY = 50, PRIMARY_ROLE(ALLOW_CONNECTIONS = ALL), SECONDARY_ROLE(ALLOW_CONNECTIONS = ALL)),
    N'Primary/Primary' WITH (ENDPOINT_URL = N'TCP://primary.blah.com:5022', FAILOVER_MODE = MANUAL, AVAILABILITY_MODE = ASYNCHRONOUS_COMMIT, SESSION_TIMEOUT = 10, BACKUP_PRIORITY = 50, PRIMARY_ROLE(ALLOW_CONNECTIONS = ALL), SECONDARY_ROLE(ALLOW_CONNECTIONS = NO));
GO
Run Code Online (Sandbox Code Playgroud)

错误:

消息 19405,级别 16,状态 17,第 3 行
无法创建、加入或添加副本到可用性组“AGName”,因为节点“Node3”可能是副本“Node3\ReadOnly”和“主/主”的所有者。如果一个副本是故障转移群集实例,请从其可能的所有者中删除重叠的节点,然后重试。

节点 3 不是FCI的一部分。它具有 SQL Server 的独立安装,并且未列为可能的所有者。

如果我尝试故障转移到节点 3,FCI 会通知我它不是可能的所有者。

我不确定是什么原因造成的。几天前,我使用 FCI 在节点 1 和 2 之间进行了故障转移。这次我确实删除了监听器来测试它,因为这是我正在做的最后一件事。有什么想法吗?

我可以拆掉 FCI 并让自动化重新创建它,但我想尝试解决这个问题而不这样做,以防万一有一天这种情况在产品中发生。我们应该能够从 WSFC 中驱逐该节点并重新添加它,但我不想打扰我们必须这样做的运营团队。不过,在发布之前,我们将拆除整个集群并让它从头开始构建。

编辑。这是 FCI 节点的输出:

select * from sys.dm_os_cluster_nodes

NodeName    status  status_description  is_current_owner
---------------------------------------------------------
SQNodeL001-LA   0   up  1
SQNodeL002-LA   0   up  0
SQLNode003-LA   0   up  0
Run Code Online (Sandbox Code Playgroud)

独立的输出为空。它是 WSFC 的一部分,但还不是 FCI 或 AG 的一部分。

powershell 输出显示所有 3 个节点都可以是所有者节点,这很奇怪。

ClusterObject                                               OwnerNodes
-------------                                               ----------
SQL Server (Instance)                                           {SQNodeL001-LA, SQNodeL002-LA, SQNodeL003-LA}
Run Code Online (Sandbox Code Playgroud)

从 GUI 中,它没有选择节点 3 作为首选所有者。请原谅进行微小的更改并删除名称。第一个节点名称全部小写。另外 2 个为大写。看来我可能需要在 powershell 中完成所有这些操作才能获取准确的数据,但尚未实现该步骤的自动化。这将是下一个冲刺。

编辑2-解决:

感谢 Sean 的 PowerShell 查询,我能够看到它仍然在 PowerShell 中被列为所有者,尽管它不在 GUI 中。我使用它删除了它get-clusterresource "sql server (instance)" | set-clusterownernode -Owners node1 node2并且它起作用了。谢谢肖恩!

在此输入图像描述

Sea*_*ser 5

消息 19405,级别 16,状态 17,第 3 行 无法创建、加入或添加副本到可用性组“AGName”,因为节点“Node3”可能是副本“Node3\ReadOnly”和“主/主”的所有者。如果一个副本是故障转移群集实例,请从其可能的所有者中删除重叠的节点,然后重试。

发生这种情况有我亲眼所见的两个主要原因。

原因 #1 - 资源/组被设置为拥有错误节点的所有权

有时(由于多种原因)Windows 集群中的资源和资源组并不总是具有相同的所有权。诊断此错误的最佳方法是首先检查 SQL Server(调用 Windows 集群 API)认为集群节点是什么:

SELECT * FROM sys.dm_os_cluster_nodes
Run Code Online (Sandbox Code Playgroud)

一旦我们知道集群中有什么,就可以通过Powershell检查集群认为 FCI 的所有权是什么:

Get-ClusterOwnerNode -Resource "SQLFCIInstanceName"
Run Code Online (Sandbox Code Playgroud)

这将返回可以拥有集群资源的节点。很可能它会包含我们知道不应该存在的节点的节点名称。

要解决此问题,请运行以下powershell命令:

Get-ClusterResource -Name "SQLFCIInstanceName" | Set-ClusterOwnerNode -Owners NodeName1,NodeName2
Run Code Online (Sandbox Code Playgroud)

通过运行第一个 powershell 命令来仔细检查所有权,然后尝试再次将副本添加到 AG。

原因 #2 - 节点名称 + 语言 != 节点名称

如果使用的语言不是 US_English,则节点名称(相互比较时)很可能无法正确比较。这会导致 AG 之外的集群出现一系列其他问题(确实如此)。

这可以通过获取节点名称、将它们转换为大写或小写并将它们与自身进行比较来测试。听起来它应该总是有效...但是某些语言具有不能很好地进行 UPPER 和 LOWER 转换的特殊字符。