标签: failovercluster

小型办公室问题中 HA 服务器的 DRBD

背景:我们在小型办公环境中需要一个 HA 服务器,并且正在寻找 DRBD 来提供它。我们只有大约 100GB 需要在 HA 服务器上,服务器负载将非常低。如果我们存档旧的办公室数据,数据可能每年增加约 10%-25%,如果我们不存档,则每年增加 50%-75%。

重点是我们混合使用消费级和企业级硬件,如果我们不提前计划,这将是一个问题;并且预先构建的优质服务器确实会失败,因此冗余服务器似乎是要走的路。

计划:我们认为最好找到 (2) 台最物有所值的二手服务器并同步它们。我们只需要具备 SATA/SAS 功能的服务器和足够多的驱动器空间。如果您达成交易,这些服务器似乎可以以 100-200 美元(+一些零件和额外驱动器)的价格购买。

从理论上讲,这意味着服务器可能会出现故障,如果我们花几天的时间来解决它,只要我们没有另一个巧合的故障,事情就会一直持续下去,直到我们的 IT 部门(我)能够解决它。我们将使用 Debian 作为操作系统。

一些问题

  1. (A) DRBD 如何处理驱动器或控制器故障?也就是说This在存储驱动程序之前显示DRBD,那么当控制器发生故障并写入脏数据或驱动器发生故障但没有立即崩溃时会发生什么?数据是否镜像到另一台服务器,在这种情况下是否存在跨服务器数据损坏的风险?

  2. (B) DRBD 的失败点是什么;理论上,只要一台服务器启动并运行,就没有问题。但是我们知道存在一些问题,那么使用 DRBD 的失败模式是什么,因为它们中的大多数理论上应该是软件?

  3. 如果我们要为此使用两台服务器,那么在每个服务器上运行 VM 并使用 MYSQL 和 Apache 进行数据库和 Web 服务器复制是否合理?(我假设是这样)

  4. DRBD 是否足够可靠?如果不是,则不可靠性是与某些任务隔离的,还是更随机的。搜索发现了有各种问题的人,但这是互联网,似乎坏信息多于好信息。

  5. 如果数据通过 LAN 同步,DRBD 是否使用双倍带宽?也就是说,我们是否应该在 NICS 上加倍并进行一些链路聚合和中继?然后也许将它们放在单独电路上的单独路由器和单独房间中的 UPS 上,现在您真的有一些冗余!

  6. 就服务器管理而言,这对于办公室来说是否太疯狂了?是否有更简单的 REALTIME 替代方案(理论上 DRBD 似乎很简单)。

我们已经有服务器了。所以在我看来,第二台带有 DRBD 专用驱动器的二手服务器可以很容易地以 150-250 美元左右的价格购买。添加第二个路由器、更多驱动器、更多 NIC(已使用)和 (2) 个 UPS,并且正在谈论 1,000 美元 +/-。那是比较便宜的!我希望这主要是在服务器故障期间为我们争取时间。如今,使用 RAID 似乎更容易处理驱动器故障。其他硬件故障,如控制器、内存或电源,可能需要停机来诊断和修复这些问题。

对我们来说,冗余服务器意味着使用过的硬件变得更加可行,有更多的正常运行时间和更多的灵活性,让我可以在我的日程安排允许时修复问题,而不是不得不停止一切来修复服务器。

希望我没有错过这些问题有易于搜索的答案。我进行了快速搜索,但没有找到我要找的东西。

failover redundancy drbd failovercluster

7
推荐指数
1
解决办法
363
查看次数

双节点服务器 2012 R2 Hyper-V 集群:是否可以在集群中使用本地物理磁盘?

查看以下集群共享空间 TechNet文章,看起来这仅适用于通过外部 SAS 背板共享 JBOD 机箱的主机。

但是,双节点集群中的每个主机都具有相同数量的 SAS 15K 驱动器 (4),当前配置为 RAID 10 阵列。

我想知道是否有与 VMWare 的 Virtual SAN 技术等效的 Hyper-V,而本地磁盘可以作为群集上的共享存储节点公开。

基本上,我们只想使用主机上的磁盘,而故障转移群集管理器似乎不想与本地磁盘打交道,就移动虚拟机的目标而言。如果 SAN 维护能够根据需要将 VM 随机播放到本地磁盘,那就太好了。

cluster hyper-v failovercluster shared-storage hyper-v-server-2012-r2

7
推荐指数
1
解决办法
1万
查看次数

带有本地存储的 Windows 2012 上的群集文件服务器

所以我有一个需要文件共享见证的 SQL Always-On 组。我希望该文件共享见证是多余的,并且由于我在此网络上不需要其他文件服务器,因此我希望使用最少数量的服务器来完成。

我以为我会用 DFS 设置 2 个服务器,但这篇文章说不要这样做,因为 DFS 有时会使用一台服务器的数据,有时会使用另一台服务器的数据,从而弄乱了法定人数:http : //windowsitpro.com/high-availability/q -why-cant-i-host-file-share-witness-cluster-dfs-share

所以看起来我需要一个真正/真正的 Windows 故障转移集群,在文件服务器角色中设置。问题是我读过的所有文章都在谈论使用共享存储。但是共享存储(例如 SAN)需要第三台服务器,然后我又出现了单点故障(SAN)。而且,我真的更愿意只购买 2 台新服务器而不是 3 台。我认为我也可以使用 Windows 的存储空间作为 SAN 的替代方案,但这需要 3 块磁盘,因此就购买硬件而言更糟糕。

在不购买太多服务器或单个 SAN 点故障的情况下,为见证设置冗余文件共享的最佳方法是什么?显然,我想使用本地存储,但我可以设置文件集群,以便它在服务器 1 为主时一直使用服务器 1 的硬盘驱动器,当服务器 2 为主时,它始终使用服务器 2 的硬盘驱动器,并使用 DFS 复制数据以防其中一台服务器死亡?我认为这种方式可以避免上面文章中提到的“唯一的 DFS”问题,并且仍然让我只使用 2 个服务器。

file-server dfs failovercluster windows-server-2012

7
推荐指数
2
解决办法
2239
查看次数

内部存储作为 HA 故障转移集群存储池?

我有 2 个 HyperV 服务器(2012 R2)节点,在故障转移群集中共享 ISCSI 存储(ubuntu 16.04)。

我想让那 3 个服务器(windows server 2016 和/或 2012r2)每个都有 2 个分区,一个用于系统,另一个用作存储。

如果我必须在其中一台服务器上进行维护,我将如何进行这项工作?

有了我现在所拥有的,我将虚拟机传输到工作节点并在第二个节点上进行维护,存储在外部它不会对虚拟机进行任何更改。根据我的想法,关闭一台服务器会使其存储不可用,并且其上的所有内容都会随之崩溃。

现在存储服务器的所有磁盘都在硬件 RAID 1+0 中,因此如果磁盘出现故障,它不会对服务器造成问题,如果其中一台服务器,是否可以为集群做同样的事情必须关闭?

我读过使用硬件和软件突袭是不行的,但我不明白如果没有两者,我怎么能做到这一点?

如果我在故障转移集群中创建一个存储池,是否可以关闭一台服务器,并在我将其恢复时更新其存储,而不会使 vms 不可用?

我是否需要将所有数据从存储中转移到一个可以保持状态的数据,然后在服务器上进行维护,然后将其全部重新传输回来?或者我继续使用外部存储并希望永远不需要关闭它,因为它几乎是相同的问题?

一些注意事项:旧服务器 HP proliant Gen 7、Dell Poweredge Gen 12 和 IBM Server X5。此外,无法获得其他 RAID 控制器,我获得了这些服务器中的任何内容,因此没有直通、JBOD 等

windows raid storage failover failovercluster

7
推荐指数
1
解决办法
212
查看次数

我如何知道我连接到我的 Oracle RAC 的哪个节点?

是否有一种简单的方法可以确定我连接到 Oracle 11g R2 系统的哪个 RAC 节点?我正在尝试执行一些故障转移测试,我想确保我的应用程序正确连接到一个节点,并且在此节点关闭后,节点可以顺利过渡到另一个节点,前端没有任何明显的延迟。也许值得一提的是我们利用了TAF。

我曾考虑为此使用企业管理器,但我想当我连接到一个运行 em 的节点并且该节点出现故障时,我真的没有机会监控节点的连接状态。

testing oracle-11g failovercluster oracle-rac

6
推荐指数
2
解决办法
7万
查看次数

DHCP 服务器只记住一个租约

我有一个 Server 2008 R2 DHCP 故障转移群集,它为两个 VLAN 提供服务 - 一个办公室网络和一个访客 WiFi 网络。故障转移群集的两个成员都是虚拟机 (ESXi),并使用 VM 内的 iSCSI 启动器作为其共享存储。集群中的每个节点还运行其他工作正常的 FO 集群服务。

但是,使用 DHCP 服务,在过去 3 周内,它开始只记住其提供的 DHCP 地址之一。这是一个真正的问题,因为它基本上开始提供使用中的地址,从而导致整个网络的 IP 冲突。它会时不时地用“BAD_ADDRESS”条目填充它的表以覆盖它找到的正在使用的IP,但它们也会消失。

这就是目前范围租约的样子。仅列出了一项非保留租约: 在此处输入图片说明

当我将 iPhone 连接到网络时,获取 IP 地址大约需要 45 秒:

在此处输入图片说明

当它出现时,它不会出现在任何地方的租赁列表中。这意味着下次其他人连接新设备时,他们最终将使用相同的 IP 地址,然后列表中将标记一个 BAD_ADDRESS - 直到下一个设备连接时,整个设备都将丢失并且它将继续- 全部标记:

在此处输入图片说明

我唯一能想到的是,这些集群成员曾经是 Hyper-V 成员,大约在这些问题开始发生的同时迁移到 ESXi - 但我不能 100% 确定。

dhcp windows-server-2008-r2 failovercluster

6
推荐指数
1
解决办法
650
查看次数

在启用配额的故障转移群集中添加共享需要 10 分钟

我有文件服务集群,其中一个文件服务器资源托管约 50,000 个用户主目录。主目录确实有一个通过FSRM分配的配额模板。

当尝试使用故障转移群集管理器的“添加文件共享”向导添加新共享时,它首先检索所有已定义文件服务器群集资源上所有共享文件夹的所有配额。在这种环境下大约需要 10 分钟。

我怎么可能

  • 加快配额枚举过程
  • 将配额枚举过程限制为单个文件服务器集群资源
  • 完全禁用新建共享向导的配额枚举

?

failovercluster windows-server-2012-r2

6
推荐指数
1
解决办法
2891
查看次数

Synology HA 主动-被动性能和故障转移

我有两个 Synology 机器 (DiskStation DS1817+) 在 Synology HA 模式下运行,其中装有 RAID10 中的 WD Black 4TB 驱动器。它们通过 iSCSI 连接到我的集群,主要提供备份存储、文件共享(在单独的文件服务器 VM 中)并托管几个 DEV 虚拟机和测试实验室。

问题是这些盒子在主动-被动模式下运行,这并不是很好,因为我只获得了单个盒子的性能(在当前阶段已经不够了)并且故障转移需要太多时间(大约 2 分钟)导致在那里运行的服务死亡。有什么方法可以将它们切换为主动-主动,以便使用两个盒子来加快速度?

我正在考虑的另一种方法是将它们转换为 RAID0,但这显然有点吓人。此外,我不确定在这种情况下 4x1GbE 网络是否不会成为 RAID0 性能的瓶颈。任何建议都非常感谢。

raid iscsi failover failovercluster synology

6
推荐指数
2
解决办法
1404
查看次数

启用 Storage Spaces Direct Server 2016 时群集失败

我正在尝试使用 2016 Server 和 Storage Spaces Direct 进行 2 节点超融合故障转移群集设置。

我能够验证(没有错误)并创建包含 S2D 测试的集群,但是当我在集群上运行 Enable-S2D 时,集群失败。

我可以看到发生的是,在 S2D 设置期间,群集服务开始反复重新启动。

在两个节点上我都收到错误

7032
在群集服务服务意外终止后,服务控制管理器尝试采取纠正措施(重新启动服务),但此操作失败并出现以下错误:
无法启动该服务,因为它已被禁用或因为它已被禁用没有与之关联的已启用设备。

7031
群集服务服务意外终止。它已经完成了“x”次。将在 15000 毫秒内采取以下纠正措施: 重新启动服务。

7024
群集服务服务因以下特定于服务的错误
而终止:群集加入操作已中止。

以及应用程序事件 1000

错误的应用程序名称:clussvc.exe,版本:10.0.14393.2273,时间戳:0x5ae40d1f
错误模块名称:clussvc.exe,版本:10.0.14393.2273,时间戳:0x5ae40d1f
异常代码:0xc0000409
错误偏移:0x00000000000332f1
出错进程ID:0x16d0
断裂作用应用程序启动时间:0x01d3ef1c502ea68c
错误的应用程序路径:C:\WINDOWS\Cluster\clussvc.exe
错误的模块路径:C:\WINDOWS\Cluster\clussvc.exe
报告 ID:a1700bc1-bf18-464e-b35c-b75982
错误包名称:
错误的包相关应用程序 ID:

我已经多次销毁并重新创建了集群,但没有运气。

我的驱动器都很干净并且有“CanPool = True”。我配置并验证了文件共享见证。

failovercluster windows-server-2016 storage-spaces-direct

6
推荐指数
3
解决办法
946
查看次数

存储空间直通:SMB 错误

所以我们有了这个4 节点存储空间直通 (S2D) 集群,运行超过 1.5 年没有任何重大问题。操作系统为Windows Server 2016

  • 所有配置文件的防火墙关闭
  • 未安装防病毒软件,Windows Defender 关闭
  • Active Directory 委派不变
  • 没有报告网络基础设施发生变化
  • RDMA 在 1 年前被禁用,因为我们发现 NIC 不完全支持它

两天前,我们注意到集群事件日志中有很多或错误消息,并且集群上托管的所有 Hyper-V 虚拟机的备份作业都失败了(通过 VEEAM 制作)。

调查很快表明SMB 连接存在许多问题

4 台主机中的任何一台:

  • 可以ping通网络中的其他资源
  • 无法连接任何共享文件夹
  • NTP 同步失败net time \\server失败,也是w32tm /monitor

显然,文件共享见证也失败了,并且要报告域服务的一些问题......

我们尝试单独重新启动节点,重新启动后 SMB 连接就好了......几分钟/几小时,然后问题再次出现

对集群的影响以及文件共享见证离线,是我们无法轻松地在节点之间执行VM的实时迁移(随机成功)。不过,快速迁移就像一种魅力。由于无法进行 SMB 连接,我们无法将 VM 移动到另一个集群或独立主机。

我们担心如果节点失控,集群会失控。即使 VM 是稳定的,我们仍然无法执行备份(我们可以执行导出)。

你们中有人听说过 S2D 或 Microsoft 故障转移群集角色的问题吗?它也可能与集群本身无关...... …

hyper-v failovercluster storage-spaces windows-server-2016 smbclient

6
推荐指数
1
解决办法
3690
查看次数