标签: failovercluster

在 Hyper-V 故障转移群集中混合服务器模型

有人有在 Hyper-V 故障转移群集中使用异构服务器的经验吗?我们有一个包含混合代 Proliant(DL360 G9 和 DL360 G10)的集群,我正在考虑将戴尔服务器引入该组合,主要是由于可用性和价格。这是一个坏主意吗?为什么?

hyper-v failovercluster

4
推荐指数
1
解决办法
278
查看次数

故障转移集群磁盘复制

我们有一个 Windows 故障转移群集,其中包含分配给角色的共享磁盘,并且希望从中设置复制。

我们尝试从集群中删除磁盘以使用 DFS 复制,但是即使使用相同的权限和路径重新创建磁盘的网络共享,我们也无法访问它们。使用共享磁盘重新创建角色后,我们就重新获得了访问权限。

除此之外,我们需要在集群内进行复制。配置存储复制时,由于标记“不在不同站点”,可用存储中的第二个共享磁盘不符合条件。

我无法找到与此错误相关的任何内容,并且我找到的 Windows 指南都显示集群到集群的复制。

谁能解释这个标志,或者有人知道配置集群存储复制的正确方法吗?

windows cluster replication failovercluster cluster-shared-volumes

4
推荐指数
1
解决办法
241
查看次数

linux集群文件系统

我目前有两个 CentOS Box,为多个 Web 服务器提供 NFS 服务。

有人可以推荐一个文件系统,它可以轻松有效地镜像这两个服务器上的所有文件吗?

我过去曾使用过 DRBD,但是它的缺点是一次只能安装在一个系统上。

linux cluster filesystems failovercluster

3
推荐指数
1
解决办法
4122
查看次数

Dell VRTX - 慢速集群共享存储

我有一个全新的 Dell VRTX 设备,它设置为运行 HA Hyper-V 虚拟机的故障转移群集。这是我第一次设置集群,也是我第一次使用这些盒子中的一个,所以我确定我错过了一些东西。

虚拟机在访问位于群集共享卷上的 VHD(x) 文件时遇到高磁盘延迟和糟糕的性能。

VRTX 有 10 个 900 GB 10K SAS 驱动器,采用 RAID 6 配置,VRTX 有冗余 Shared PERC 8 控制器。两个刀片都可以完全访问虚拟磁盘。安装了两个 M520 刀片,每个刀片具有 128 GB RAM。MPIO 是为 PERC 8 控制器配置的。刀片上的操作系统是 Server 2012(不是 R2)。

RAID 6 阵列被分成一个小的 (8 GB) 卷用于集群仲裁见证和一个大的 (6.5 TB) 卷用于集群共享卷(安装在节点上作为 C:\ClusterStorage\Volume1)

慢速磁盘访问的一个示例:登录到 Server 2012 VM 并自动启动服务器管理器。磁盘访问达到 100%,写入速度为 20 MB 左右,读取速度为 500 KB 左右,平均响应时间超过 1000 毫秒,有时会在 4000-5000 毫秒左右达到峰值。真正让我担心的是延迟。

我应该在我的配置中查看一些特定的内容吗?无论我使用 VHD 还是 VHDX,动态的还是静态的,这似乎都无关紧要。

failovercluster dell-perc blade-server windows-server-2012 hyper-v-server-2012

3
推荐指数
3
解决办法
1万
查看次数

无法正确安装或配置 vSphere 6.5 HA 代理

上周我们遇到了以下问题:由于更换 UPS,我们不得不关闭整个基础设施。在电气操作结束时,我们重新启动了:

  1. 网络
  2. SAN
  3. 中心
  4. ESXi(集群中 2 个)

等待 ESXi 启动后,我们发现集群出现错误:配置资源不足,无法满足集群上所需的 vSphere HA 故障切换级别

然后我们发现 vCenter 无法通过网络联系 ESXi:交换机的 PDU 在操作过程中被拔掉。

重新插入 PDU,ESXi 现在可以与 vCenter 通信,但每个主机上都出现以下警报:无法正确安装或配置 vSphere HA 代理

我们决定重新启动两个 ESXi,不走运,错误仍然存​​在。

由于维护窗口的限制,我们决定从集群中删除两台主机以便能够启动我们的虚拟机,代价是在一台主机发生故障时不会自动进行故障转移。

在谷歌搜索了很多之后,我们尝试了许多 VMware 的知识库(无顺序):

没有结果了……

在我们的旅程中,我们/var/log/fdm.log在两台主机上只发现了一个错误:

2018-06-25T09:05:54.232Z error fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterPersistence::DoFetchDataSync] Open of file /etc/opt/vmware/fdm/kvstore failed: No such file …
Run Code Online (Sandbox Code Playgroud)

cluster high-availability vmware-esxi failovercluster

3
推荐指数
1
解决办法
2万
查看次数

在 CentOS 7 上使用 Pacemaker 进行 DRBDManage

我有2层CentOS 7.6我已与配置的节点drbddrbdmanagepacemaker主动/被动故障转移。

在故障期间,我的 vip 和drbd服务从主节点故障转移到下一个节点的辅助节点,但我无法连接drbdmanage到检查/管理集群。

由于pacemaker具有 drbdmanage 的资源类型,我假设我应该能够管理服务并将其故障转移到幸存的节点。

我想知道drbdmanage节点故障后是否可以进行故障转移?

drbd pacemaker failovercluster centos7

3
推荐指数
1
解决办法
364
查看次数

仅当为共享磁盘分配了 CSV 时,Azure 数据中心 2019 故障转移群集在重新启动后无响应

我们在 azure 2019 数据中心上的 2 节点集群中看到了一些非常奇怪的行为。我们没有立即发现这个问题,但在某个时候它开始发生,现在我们可以重复它。

我们有一个天蓝色的共享磁盘,我们在故障转移集群管理器中将其分配为集群共享卷。如果我们在再次启动时重新启动其中一个节点,Windows 资源管理器将在相当长的一段时间内没有响应。有趣的是,在 Windows 资源管理器变得有响应之前,powershell 也没有响应(甚至无法在其中键入命令)。我们使用任务管理器启动了 powershell。但是,从任务管理器启动命令窗口不会有延迟。

我们已从集群中删除了所有角色。删除已安装的软件并格式化 CSV 驱动器,使其全部干净。

如果我们以 CSV 形式删除磁盘并将其保留在可用磁盘中并重新启动,则不会出现延迟。如果我们将其作为 CSV 添加回来,我们会再次遇到延迟。我们可以根据需要重复此操作。

如果我们同时弹跳两个节点,则 explorer 和 powershell 最多需要 45 分钟才能再次激活。在没有 CSV 的情况下执行相同的操作没有问题。

我在事件日志中看不到任何表明问题的内容。这真是一个奇怪的现象。

我想说这是一次性的,但我们之前遇到过这个问题,并决定从头开始重新部署。一两天一切正常,然后又开始了。

我们几乎已经完成了可以尝试的事情,我想知道是否有任何类似的东西,或者是否还有其他我们可以看的东西。

azure failovercluster cluster-shared-volumes windows-server-2019

3
推荐指数
1
解决办法
60
查看次数

磁盘存储上的虚拟活动目录 - 良好实践

我来这里是为了问一个困扰我的问题。当我有两台物理服务器和一个磁盘阵列时,虚拟化 Active Directory 的最佳方法是什么?我知道我至少需要两个域控制器。为了实现这一目标,我需要在 hyper-v 上放置两个虚拟服务器。然后我可以执行以下操作:在磁盘阵列上运行两个虚拟服务器,其中 hyper-v 服务位于故障转移群集中?我是否应该将这些虚拟机放在故障转移群集之外,将一个放在节点 1 上,将下一个放在节点 2 上?也许还有其他更好的方法?对我来说,当 AD 已经在磁盘存储上时的情况是一周的选择。存储出现故障,AD 丢失。请发表您的意见。

active-directory hyper-v failovercluster matrix windows-server-2022

3
推荐指数
1
解决办法
97
查看次数

编辑 HA 集群配置 cib.xml

我想编辑我在 centos 6.5 上的集群配置的 pingd,因为地址不再有效,而且我的集群总是因为节点失败而切换到另一个节点。最好的方法是什么。我知道我绝不能打开直接在cib.xml 文件中。

[root@PBX1 mojo]# pcs config
Cluster Name: pbx
Corosync Nodes:
 pbx1 pbx2
Pacemaker Nodes:
 pbx1 pbx2

Resources:
 Master: master_drbd
  Meta Attrs: master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true
  Resource: drbd_drbd0 (class=ocf provider=linbit type=drbd)
   Attributes: drbd_resource=drbd0
   Operations: monitor interval=10s (drbd_drbd0-monitor-interval-10s)
 Clone: Connectivity
  Resource: p_ping (class=ocf provider=pacemaker type=ping)
   Attributes: host_list="10.66.4.4 10.66.4.5 10.66.4.11 10.66.4.252 10.66.4.253 10.66.4.254" multiplier=1000 dampen=5s
   Operations: monitor interval=1s (p_ping-monitor-interval-1s)
 Group: PBX_IP
  Resource: ClusPBXIP (class=ocf provider=heartbeat type=IPaddr2)
   Attributes: ip=10.66.6.200 nic=bond0.2 cidr_netmask=24
   Operations: monitor interval=30s (ClusPBXIP-monitor-interval-30s)
  Resource: ClusNetIP (class=ocf …
Run Code Online (Sandbox Code Playgroud)

linux pacemaker failovercluster corosync

2
推荐指数
1
解决办法
5529
查看次数

虚拟 IP 如何将 TCP 连接故障转移到备份服务器以实现高可用性?

我对虚拟 IP 如何实现故障转移有几个疑问。目标是实现 TCP 服务器上运行的服务的高可用性。

这个问题可以很容易地描述:

在此输入图像描述

问题:

  1. 假设运行主服务器的机器 A 挂掉了。机器 1 上的虚拟 IP 软件如何工作?客户端是否需要重新连接才能重定向到机器 B 上的备份服务器?这台机器/连接切换是否透明发生?

  2. 虚拟IP是通过软件还是硬件实现的?您能给我提供我可以使用/测试的软件解决方案的示例吗?

  3. 虚拟 IP 软件是否存在单点故障?如果机器 1 死掉了会发生什么?虚拟 IP 软件本身是否具有某种故障转移/高可用性功能?

cluster failover high-availability load-balancing failovercluster

2
推荐指数
1
解决办法
6568
查看次数