标签: failovercluster

VRTX 有 10 个 900 GB 10K SAS 驱动器，采用 RAID 6 配置，VRTX 有冗余 Shared PERC 8 控制器。两个刀片都可以完全访问虚拟磁盘。安装了两个 M520 刀片，每个刀片具有 128 GB RAM。MPIO 是为 PERC 8 控制器配置的。刀片上的操作系统是 Server 2012（不是 R2）。

RAID 6 阵列被分成一个小的 (8 GB) 卷用于集群仲裁见证和一个大的 (6.5 TB) 卷用于集群共享卷（安装在节点上作为 C:\ClusterStorage\Volume1）

慢速磁盘访问的一个示例：登录到 Server 2012 VM 并自动启动服务器管理器。磁盘访问达到 100%，写入速度为 20 MB 左右，读取速度为 500 KB 左右，平均响应时间超过 1000 毫秒，有时会在 4000-5000 毫秒左右达到峰值。真正让我担心的是延迟。

我应该在我的配置中查看一些特定的内容吗？无论我使用 VHD 还是 VHDX，动态的还是静态的，这似乎都无关紧要。

failovercluster dell-perc blade-server windows-server-2012 hyper-v-server-2012

Nor*_*eek

lucky-day

3
推荐指数

3
解决办法

1万
查看次数

无法正确安装或配置 vSphere 6.5 HA 代理

上周我们遇到了以下问题：由于更换 UPS，我们不得不关闭整个基础设施。在电气操作结束时，我们重新启动了：

网络
SAN
中心
ESXi（集群中 2 个）

等待 ESXi 启动后，我们发现集群出现错误：配置资源不足，无法满足集群上所需的 vSphere HA 故障切换级别。

然后我们发现 vCenter 无法通过网络联系 ESXi：交换机的 PDU 在操作过程中被拔掉。

重新插入 PDU，ESXi 现在可以与 vCenter 通信，但每个主机上都出现以下警报：无法正确安装或配置 vSphere HA 代理。

我们决定重新启动两个 ESXi，不走运，错误仍然存在。

由于维护窗口的限制，我们决定从集群中删除两台主机以便能够启动我们的虚拟机，代价是在一台主机发生故障时不会自动进行故障转移。

在谷歌搜索了很多之后，我们尝试了许多 VMware 的知识库（无顺序）：

断开/重新连接主机
在没有虚拟机的情况下将主机一一重新分配到集群
重新启动 vSphere High Availability 服务重新配置 HA (FDM)
重新检查网络需求搜索 vSphere 6.x 的网络端口图
禁用/启用 HA故障排除 VMware 高可用性
卸载/重新安装 FDM KB 2056299

没有结果了……

在我们的旅程中，我们/var/log/fdm.log在两台主机上只发现了一个错误：

2018-06-25T09:05:54.232Z error fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterPersistence::DoFetchDataSync] Open of file /etc/opt/vmware/fdm/kvstore failed: No such file …

Run Code Online (Sandbox Code Playgroud)

cluster high-availability vmware-esxi failovercluster

cJu*_*cJu

2018 06-27

3
推荐指数

1
解决办法

2万
查看次数

在 CentOS 7 上使用 Pacemaker 进行 DRBDManage

我有2层CentOS 7.6我已与配置的节点drbd，drbdmanage和pacemaker主动/被动故障转移。

在故障期间，我的 vip 和drbd服务从主节点故障转移到下一个节点的辅助节点，但我无法连接drbdmanage到检查/管理集群。

由于pacemaker具有 drbdmanage 的资源类型，我假设我应该能够管理服务并将其故障转移到幸存的节点。

我想知道drbdmanage节点故障后是否可以进行故障转移？

drbd pacemaker failovercluster centos7

Saj*_*pee

lucky-day

3
推荐指数

1
解决办法

364
查看次数

仅当为共享磁盘分配了 CSV 时，Azure 数据中心 2019 故障转移群集在重新启动后无响应

我们在 azure 2019 数据中心上的 2 节点集群中看到了一些非常奇怪的行为。我们没有立即发现这个问题，但在某个时候它开始发生，现在我们可以重复它。

我们有一个天蓝色的共享磁盘，我们在故障转移集群管理器中将其分配为集群共享卷。如果我们在再次启动时重新启动其中一个节点，Windows 资源管理器将在相当长的一段时间内没有响应。有趣的是，在 Windows 资源管理器变得有响应之前，powershell 也没有响应（甚至无法在其中键入命令）。我们使用任务管理器启动了 powershell。但是，从任务管理器启动命令窗口不会有延迟。

我们已从集群中删除了所有角色。删除已安装的软件并格式化 CSV 驱动器，使其全部干净。

如果我们以 CSV 形式删除磁盘并将其保留在可用磁盘中并重新启动，则不会出现延迟。如果我们将其作为 CSV 添加回来，我们会再次遇到延迟。我们可以根据需要重复此操作。

如果我们同时弹跳两个节点，则 explorer 和 powershell 最多需要 45 分钟才能再次激活。在没有 CSV 的情况下执行相同的操作没有问题。

我在事件日志中看不到任何表明问题的内容。这真是一个奇怪的现象。

我想说这是一次性的，但我们之前遇到过这个问题，并决定从头开始重新部署。一两天一切正常，然后又开始了。

我们几乎已经完成了可以尝试的事情，我想知道是否有任何类似的东西，或者是否还有其他我们可以看的东西。

azure failovercluster cluster-shared-volumes windows-server-2019

Bee*_*iii

lucky-day

3
推荐指数

1
解决办法

60
查看次数

我来这里是为了问一个困扰我的问题。当我有两台物理服务器和一个磁盘阵列时，虚拟化 Active Directory 的最佳方法是什么？我知道我至少需要两个域控制器。为了实现这一目标，我需要在 hyper-v 上放置两个虚拟服务器。然后我可以执行以下操作：在磁盘阵列上运行两个虚拟服务器，其中 hyper-v 服务位于故障转移群集中？我是否应该将这些虚拟机放在故障转移群集之外，将一个放在节点 1 上，将下一个放在节点 2 上？也许还有其他更好的方法？对我来说，当 AD 已经在磁盘存储上时的情况是一周的选择。存储出现故障，AD 丢失。请发表您的意见。

active-directory hyper-v failovercluster matrix windows-server-2022

dog*_*g_1

lucky-day

3
推荐指数

1
解决办法

97
查看次数

编辑 HA 集群配置 cib.xml

我想编辑我在 centos 6.5 上的集群配置的 pingd，因为地址不再有效，而且我的集群总是因为节点失败而切换到另一个节点。最好的方法是什么。我知道我绝不能打开直接在cib.xml 文件中。

[root@PBX1 mojo]# pcs config
Cluster Name: pbx
Corosync Nodes:
 pbx1 pbx2
Pacemaker Nodes:
 pbx1 pbx2

Resources:
 Master: master_drbd
  Meta Attrs: master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true
  Resource: drbd_drbd0 (class=ocf provider=linbit type=drbd)
   Attributes: drbd_resource=drbd0
   Operations: monitor interval=10s (drbd_drbd0-monitor-interval-10s)
 Clone: Connectivity
  Resource: p_ping (class=ocf provider=pacemaker type=ping)
   Attributes: host_list="10.66.4.4 10.66.4.5 10.66.4.11 10.66.4.252 10.66.4.253 10.66.4.254" multiplier=1000 dampen=5s
   Operations: monitor interval=1s (p_ping-monitor-interval-1s)
 Group: PBX_IP
  Resource: ClusPBXIP (class=ocf provider=heartbeat type=IPaddr2)
   Attributes: ip=10.66.6.200 nic=bond0.2 cidr_netmask=24
   Operations: monitor interval=30s (ClusPBXIP-monitor-interval-30s)
  Resource: ClusNetIP (class=ocf …

Run Code Online (Sandbox Code Playgroud)

linux pacemaker failovercluster corosync

Ale*_*hev

2017 10-09

2
推荐指数

1
解决办法

5529
查看次数

虚拟 IP 如何将 TCP 连接故障转移到备份服务器以实现高可用性？

我对虚拟 IP 如何实现故障转移有几个疑问。目标是实现 TCP 服务器上运行的服务的高可用性。

这个问题可以很容易地描述：

问题：

假设运行主服务器的机器 A 挂掉了。机器 1 上的虚拟 IP 软件如何工作？客户端是否需要重新连接才能重定向到机器 B 上的备份服务器？这台机器/连接切换是否透明发生？
虚拟IP是通过软件还是硬件实现的？您能给我提供我可以使用/测试的软件解决方案的示例吗？
虚拟 IP 软件是否存在单点故障？如果机器 1 死掉了会发生什么？虚拟 IP 软件本身是否具有某种故障转移/高可用性功能？

cluster failover high-availability load-balancing failovercluster

Dav*_*vid

2017 10-14

2
推荐指数

1
解决办法

6568
查看次数