标签: cluster

如何设置Zabbix来监控SQL Server故障转移主动-被动集群？

它应该很简单，所以很可能我的方法完全错误，希望有人能促使我走向正确的方向。

我们设置了一个 Zabbix 2.0.3 服务器实例来监视一堆不同的服务器，但现在我们需要将其设置为监视和通知有关 SQL Server 2008 R2 故障转移主动-被动集群的任何警报。

本质上，这是一个 2 服务器集群，在给定时间只有一个节点可以“活动”，为所有 SQL Server 相关请求提供服务，而另一台服务器只是“休眠”，并且从任何登录该服务器的角度来看服务器 - 所有 SQL Server 相关服务均处于停止状态。

我们尝试在两台服务器上设置 Zabbix 代理，使用 SQL Server 2005 模板（我们找不到任何 2008 特定的模板，2005 的模板似乎总是可以很好地监视 2008 R2 实例）并为两台服务器配置 Zabbix 服务器。服务器，但我们最终会收到持续的警报，因为该服务器当前是集群中的被动服务器。我们已经能够查找实际监控故障转移的各种方法，但我们无法找到有关如何指示 Zabbix 的任何指导，在这种特殊情况下，组中只有一台服务器预计会处于在线状态，而另一个可以直接丢弃，不应发出任何警报。

我希望我说清楚了。感谢您的任何指导。我没主意了。

cluster sql-server zabbix

Seb*_*ada

lucky-day

5
推荐指数

1
解决办法

6089
查看次数

glassfish 集群在启动时失败

我在尝试设置集群时遇到问题。

我将描述详细的配置（因为我找不到在两台不同的电脑上制作的集群示例，所有这些都是在一个本地主机上制作的）：

3 个 ubuntu 虚拟机：1 个域管理员和 2 个实例。

我在每个实例上安装（解压缩）1 个 glassfish 服务器并启动它们。然后我在域管理员（也是一个 glassfish）上为每个节点创建了一个 ssh 节点

所以我有

节点1 192.168.193.134 SSH 节点
节点2 192.168.193.133 SSH 节点

均成功连接。

最后我通过命令行创建了集群，如下所示

:~$ asadmin create-cluster clusterm
:~$ asadmin create-instance --node node1 --cluster clusterm inst1
:~$ asadmin create-instance --node node2 --cluster clusterm inst2

但是当我尝试启动集群 ( :~$ asadmin start-cluster clusterm) 时，它失败并抛出此错误：

    remote failure: inst1: Could not start instance inst1 on node node1 (192.168.193.134).

    Command failed on node node1 (192.168.193.134): Previous synchronization failed at May 20, 2013 …

Run Code Online (Sandbox Code Playgroud)

cluster glassfish

Mar*_*les

lucky-day

5
推荐指数

1
解决办法

2806
查看次数

Redis/Sentinel 集群故障转移导致“故障转移-中止-未选举主服务器”

我有一个 2 节点 Redis 集群设置。

[主站] 192.168.56.102：Redis主站（：6379），Redis从站（：6380），哨兵（：26379），哨兵＃2（：26380）

[救援]192.168.56.103：Redis Master（：6379），Redis Slave（：6380），Sentinel（：26379）

每个从属实例都是同一机器上主实例的从属实例。每个哨兵实例监控两个主实例。

我将上述内容与 twemproxy （与这个问题无关）和 client-reconfig-script 结合使用来更新 twemproxy 配置，以便应用程序继续工作。

我正在停止服务器以查看发生了什么以及一切是否正常工作。

[master] stop redis master：法定人数能够成功选举新的master。登录下面。

==> /tmp/sentinel.log <==
[14701] 29 Dec 18:16:55.096 # +sdown slave 192.168.56.102:6379 192.168.56.102 6379 @ master 192.168.56.102 6380
[14705] 29 Dec 18:16:55.096 # +sdown slave 192.168.56.102:6379 192.168.56.102 6379 @ master 192.168.56.102 6380
[14701] 29 Dec 18:18:04.187 # -sdown slave 192.168.56.102:6379 192.168.56.102 6379 @ master 192.168.56.102 6380
[14705] 29 Dec 18:18:04.236 # -sdown slave 192.168.56.102:6379 192.168.56.102 6379 @ master …

Run Code Online (Sandbox Code Playgroud)

cluster failover redis

sm0*_*e21

2014 12-30

5
推荐指数

1
解决办法

1万
查看次数

具有共享存储的文件服务器集群 - 存储选项

我们想在虚拟机上构建具有共享存储的两节点文件服务器集群。问题是我们的 vmware 设置不支持磁盘共享。当然，文件服务器集群必须始终可用。

我们还有什么其他选择？我认为：

DFS - 不是一个解决方案，因为两个节点可以在故障转移时同时写入（称为裂脑问题）

- 存储副本（这里不确定，但听起来像是一种选择？） - 不认为它可以在一个站点出现故障后自动切换

- 存储空间（无论如何都需要共享存储？）

我可以使用 vmware 之外的存储（直接连接到虚拟服务器的直通磁盘存储）。这意味着必须仅为集群中的两台服务器创建单独的 LUN，因此听起来工作量很大。

cluster file-server failovercluster storage-spaces windows-server-2016

sus*_*nse

lucky-day

5
推荐指数

1
解决办法

816
查看次数

Corosync/Pacemaker/DRBD 弹性调整

我有一个 DRBD 集群，其中一个节点关闭了几天。单节点运行良好，没有出现任何问题。当我打开它时，我遇到了一种情况，所有资源都停止了，一个 DRBD 卷是辅助卷，其他卷是主要卷，因为它似乎试图对刚刚打开的节点执行角色交换（ha1 处于活动状态，然后我打开 ha2）为了便于理解日志，在 08:06）

我的问题：

谁能帮我弄清楚这里发生了什么？（如果这个问题被认为太费力，我愿意考虑付费咨询来获得正确的配置）。
作为一个附带问题，如果情况自行解决，是否有办法让电脑自行清理资源？如果故障转移后故障状况清除，LinuxHA 集群不需要干预，所以我要么被宠坏了，要么不知道如何实现这一点。

下面是我能想象到的所有可能有用的信息。

bash-5.1# cat /proc/drbd 
version: 8.4.11 (api:1/proto:86-101)
srcversion: 60F610B702CC05315B04B50 
 0: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----
    ns:109798092 nr:90528 dw:373317496 dr:353811713 al:558387 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 1: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
    ns:415010252 nr:188601628 dw:1396698240 dr:1032339078 al:1387347 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 2: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
    ns:27957772 nr:21354732 dw:97210572 dr:100798651 al:5283 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0

Run Code Online (Sandbox Code Playgroud)

集群状态最终为

bash-5.1# …

Run Code Online (Sandbox Code Playgroud)

cluster drbd pacemaker corosync

Was*_*lap

lucky-day

5
推荐指数

1
解决办法

460
查看次数

SQL 服务器的廉价集群

有人知道模拟集群 SQL 服务器解决方案的方法吗？我们显然不想花很多钱来制作这个想法的原型，但我们有很多 PC 可用。我只是想知道是否有任何方法可以让 SQL Server 认为它是通过使用物理机甚至虚拟机安装到集群硬件上的？

我当然不希望做任何性能测试，更多的是测试故障转移场景和复制等。

有任何想法吗？

cluster failover sql-server

Rob*_*rey

lucky-day

4
推荐指数

1
解决办法

607
查看次数

Hadoop 集群。2 快，4 中，8 慢机器？

我们将购买一些新硬件来专门用于 Hadoop 集群，但我们一直在纠结应该购买什么。假设我们有 5000 美元的预算，我们应该以每台 2500 美元的价格购买两台超级漂亮的机器，每台 1200 美元左右购买四台，还是每台 600 美元左右购买八台？hadoop 会在更慢的机器或最少的更快的机器上更好地工作吗？或者，像大多数事情一样“视情况而定”？:-)

hardware cluster hadoop

Rya*_*zel

2009 06-18

4
推荐指数

1
解决办法

1177
查看次数