标签: fault-tolerance

多站点高可用

我们有一个需要高度可用的 SaaS 应用程序。我们已经拥有一个昂贵且维护良好的 Hyper-V 故障转移集群，但今天我们托管该集群的数据中心断电了五个小时，使我们完全离线。所以现在我们想知道是否有更好的方法是在两个独立的数据中心使用服务器。假设我们让所有的后端文件复制和数据复制在这两个站点之间工作，我们想知道如何处理前端路由——难怪我们如何解决这个问题，我们总是以负载均衡器结束单点故障。

所以问题是......我们如何在两个托管站点之间设置负载平衡，以使负载平衡器不是单点故障？有没有办法使用两个单独的负载平衡器，每个站点一个？我们应该考虑轮询 DNS 吗？

failover high-availability load-balancing fault-tolerance

Mik*_*ike

lucky-day

16
推荐指数

1
解决办法

7327
查看次数

“降级”的 RAID 6 阵列和“干净”的 RAID 5 阵列有什么区别？

假设您有两个 RAID 阵列，一个有 N 个磁盘，另一个有 N+1 个磁盘。具有 N 个磁盘的阵列被格式化为RAID\xc2\xa05并保持不变，而另一个阵列在其中一个磁盘被移除之前被格式化为RAID\xc2\xa06 。现在，两个阵列都有 N 个磁盘，N-1 个磁盘的可用存储空间，并且可以在丢失一个（多个）磁盘的情况下幸存下来。

除了 RAID 控制器使用的任何元数据之外，这两个阵列之间是否有任何差异（在数据布局、性能和可靠性方面）？我能否将缺少一个磁盘的 RAID\xc2\xa06 阵列转换为一个较少预期磁盘的 RAID\xc2\xa05，并尽可能减少“重塑”/“重写”？

我知道 RAID 5 和 RAID 6 中有不同的“策略”/“对齐”，但这可能超出了这个问题的范围。也许应该假设两个阵列都使用两个 RAID 级别通用的策略。

raid performance raid5 raid6 fault-tolerance

ATL*_*ief

2022 03-02

16
推荐指数

1
解决办法

3287
查看次数

Systemd 不会重启服务，尽管 Restart=always

这是我的 systemd 服务的单元文件：

[Unit]
Description=Tunnel For %i
After=network.target

[Service]
User=autossh
ExecStart=/usr/bin/autossh -M 0 -N -o "ExitOnForwardFailure yes" -o "ConnectTimeout=1" -o "ServerAliveInterval 60" -o "ServerAliveCountMax 3" -R 40443:installserver:40443 -R 8080:installserver:8080 tunnel@%i
Restart=always

[Install]
WantedBy=multi-user.target

Run Code Online (Sandbox Code Playgroud)

该单元在 15 天前出现故障并且 systemd 没有重新启动它，尽管“Restart=always”在上面的单元文件中。

这里是这个服务的状态输出：

salt:/srv # systemctl status autossh@eins-work
autossh@eins-work.service - Tunnel For eins-work
      Loaded: loaded (/etc/systemd/system/autossh@.service; enabled)
      Active: failed (Result: start-limit) since Wed, 2016-02-10 14:33:34 CET; 2 weeks and 1 days ago
    Main PID: 17980 (code=exited, status=0/SUCCESS)
      CGroup: name=systemd:/system/autossh@.service/eins-work

Feb 10 14:33:34 salt systemd[1]: …

Run Code Online (Sandbox Code Playgroud)

fault-tolerance systemd

gue*_*tli

2017 04-13

10
推荐指数

1
解决办法

9738
查看次数

容错 NFS？

可能是常见问题解答，但经过一段时间的搜索，我没有找到任何有用的信息：

我是否可以设置 NFS，以便在不需要立即干预的情况下屏蔽每个错误（例如服务器 CPU、硬盘、高清控制器、网络适配器、网线、电源）？

我只有部分问题的答案：RAID、冗余电源、冗余网络适配器

如何解决 NFS 服务器的 CPU 故障，以便客户端透明地进行故障转移？

linux nfs fault-tolerance

Pet*_* G.

lucky-day

9
推荐指数

1
解决办法

4626
查看次数

我的服务器安装了 3 个硬盘驱动器，总容量为 6 个。我们计划将其最大化，但我们的顾问还建议获得第二个 RAID 控制器“用于冗余”以支持新驱动器。对我来说，这没有多大意义。即使第二个 RAID 控制器运行一半的磁盘，如果其中一个控制器死机（这并不比没有运行好多少），我们仍然只能使用一半的磁盘/程序/数据。我们将 vmware 放在服务器上，他含糊地提到了一些高级容错/故障转移功能，但是如果由于控制器故障导致磁盘无法访问，它应该如何工作？

只计算冗余的原因，而不是性能，为什么我要在我的服务器中有第二个 RAID 控制器？

raid fault-tolerance

Big*_*002

lucky-day

9
推荐指数

2
解决办法

7491
查看次数

循环 DNS 是实现高可用性的可能解决方案吗？

假设我有给定域的 2 个 IP（循环 DNS）。
如果一个 IP 变得无响应，客户端是否会尝试连接到另一个 IP？或者他们将无法与域建立通信？

domain-name-system high-availability redundancy fault-tolerance round-robin

Get*_*ree

lucky-day

9
推荐指数

2
解决办法

1万
查看次数

ESXi HA 群集的共享存储选项

我正在寻求有关支持 ESXi HA 集群的共享存储选项的建议（请注意，我不是在要求产品/品牌/型号推荐 - 我知道这违反了此处的规则）。我问了技术建议。

我工作的公司是一家小企业。目前，我们有一台带有 DAS 的 HP DL380 G9，带有 ESXi 6.0，运行我们定制开发的应用程序。我们现在正在研究如何使用最经济的选项实现 HA/FT。我们需要 HA/FT，因为我是一个人的 IT 团队，我经常出差，所以手动故障转移/恢复不是一种选择。

我知道我们至少需要 2 个 ESXi 主机（物理服务器）和共享存储才能实现 HA/FT。我认为，这就是有趣的地方：即使是最便宜的入门级存储阵列对我们来说也可能是一种矫枉过正。我们的存储容量需求可能在 200GB 左右，而且至少在 5 年内我们不会看到翻倍。然而，我们需要用于 HA/FT 的共享存储。

因此，我真的很感激任何关于我的选择的建议。谢谢。

high-availability vmware-esxi vmware-vsphere fault-tolerance shared-storage

Art*_*hur

2017 03-11

8
推荐指数

2
解决办法

6305
查看次数

实现 RAID6 的最少磁盘数

RAID6 旨在在 2 个磁盘出现故障时提供容错能力。

实现 RAID6 所需的最少磁盘数是多少？

谢谢

raid raid6 fault-tolerance

Upu*_*pul

2015 10-01

7
推荐指数

2
解决办法

6万
查看次数

Azure 虚拟机 - 它们提供什么容错？

我们正在考虑将我们的虚拟机（Hyper-V VHD）迁移到 Windows Azure，但我还没有找到太多关于基础架构提供什么样的容错能力。当我在 Azure 中运行 VHD 时，我有两个问题：

我的 VHD 和其中的所有数据安全吗？我认为上传的 VHD 使用“存储”基础架构，因此它们应该自动复制到多个磁盘并在地理上分布，但为了安全起见，我仍然应该进行完整映像备份吗？（请注意，我当然会备份我关心的 VM 内的实际数据；我只是想知道有一天我会收到一封来自 Microsoft 的电子邮件，告诉我我的 VM 是否有可能超过 0.0000001%消失了，我应该从头开始创建或恢复它）。
我是否需要担心有关 VM 可用性的其他问题？我的意思是，当我有一个本地服务器时，我需要担心硬件本身、主机操作系统、如果我的路由器出现故障会发生什么、如果我的 Hyper-V 的 C: 驱动器出现故障等等。我的想法是对的使用 Azure，他们的基础架构会处理所有这些？

谢谢。

virtual-machines azure fault-tolerance

Bor*_*ard

lucky-day

7
推荐指数

1
解决办法

2879
查看次数