Redis 集群实时重新分片失败

Shl*_*ton 5 redis redis-cluster

我们在生产环境中广泛使用 redis-cluster。我们目前有一个 30 节点的集群(15 个主节点,15 个从节点)我们正在尝试增加集群,为此我们已经创建了新的服务器并将它们加入到集群中。到目前为止一切都很好。

接下来 - 我们正在尝试将插槽重新分片给新的主人。我们使用redis-trib reshard命令编写了一个脚本来执行此操作。

但是 - 迁移中途失败(但离开始不是很远)并出现以下错误: [ERR] Calling MIGRATE: ERR Target instance replied with error: BUSYKEY Target key name already exists.

这种情况偶尔会发生,有时它会在失败之前设法移动一些插槽,有时它会在第一个插槽上失败。每个此类故障都需要手动修复操作,这使得重新分片操作非常难以管理。

除了停机迁移之外,我们还没有找到任何具体的例子,也没有任何关于如何防止这种情况的想法。我们正在努力避免。

版本:
redis server 4.0.2
redis trib 3.3.3(在此问题后从 4.0.2 降级:redis cluster reshard [ERR] Calling MIGRATE: ERR Syntax error

我们的下一步是升级到最新的 redis (4.0.11),即使我们在此问题的发行说明中没有找到任何指示。

希望听到我们做错了什么以及如何修复它,或者 redis-cluster 不是为实时重新分片而构建的?

谢谢

Shu*_*rma 5

我在为我们自己的项目使用 redis-clustering 支持时遇到过这样的问题。我发现redis-trib reshard命令有问题。如果从一个主节点迁移到另一个主节点的插槽中没有存储任何密钥,它就可以正常工作。

但是 redis-5(仍在开发中,尚未稳定)有自己的“redis-cli”,我认为重新分片命令没有问题。仅对于 5 的较低版本才会发生。

如果您查看 redis 的官方文档说redis reconfigurationredis cluster resharding,您会发现它们在内部如何重新分片。

所以我通过运行 bash 脚本而不是运行redis-trib reshard命令来完成这些任务,从而解决了这个问题。

假设您想将一些插槽从主节点重新分片到其他主节点。我们将拥有哈希槽当前所有权的节点称为源节点,并将目标节点迁移到其中的节点

对于每个插槽执行以下步骤:

请记住,根据 redis 官方文档,这些步骤的顺序在这里很重要。

  1. 发送CLUSTER SETSLOT <slot> IMPORTING <source-node-id>目标节点以将插槽设置为导入状态。
  2. 发送CLUSTER SETSLOT <slot> MIGRATING <destination-node-id>源节点以将设置为迁移状态。
  3. 使用CLUSTER GETKEYSINSLOT命令从源节点获取密钥,并使用以下MIGRATE命令将它们移动到目标节点

    MIGRATE target_host target_port key target_database_id timeout

    在Redis Cluster中不需要指定0以外的数据库,但是MIGRATE是一个通用命令,可以用于其他不涉及Redis Cluster的任务。

  4. 当迁移过程最终完成时,CLUSTER SETSLOT <slot> NODE <destination-node-id>源节点目标节点中使用以将插槽再次设置为正常状态。通常将相同的命令发送到所有其他节点,以避免等待新配置在集群中自然传播。

这里还给出了一个简单的示例 bash 脚本:

源IP: 172.17.0.5。源 ID:1f70a5107e0042a7d33a9efaf88dbdfecd78076a

目的IP: 172.17.0.4。目的地标识:7e428bae84697a3882ecad19bd0d13ac7ee97d02

另一个主IP: 172.17.0.7

for i in `seq 0 5460`; do
    redis-cli -c -h 172.17.0.4 cluster setslot ${i} importing 1f70a5107e0042a7d33a9efaf88dbdfecd78076a
    redis-cli -c -h 172.17.0.5 cluster setslot ${i} migrating 7e428bae84697a3882ecad19bd0d13ac7ee97d02
    while true; do
        key=`redis-cli -c -h 172.17.0.5 cluster getkeysinslot ${i} 1`
        if [ "" = "$key" ]; then
            echo "there are no key in this slot ${i}"
            break
        fi
        redis-cli -h 172.17.0.5 migrate 172.17.0.4 6379 ${key} 0 5000
    done
    redis-cli -c -h 172.17.0.5 cluster setslot ${i} node 7e428bae84697a3882ecad19bd0d13ac7ee97d02
    redis-cli -c -h 172.17.0.4 cluster setslot ${i} node 7e428bae84697a3882ecad19bd0d13ac7ee97d02
    redis-cli -c -h 172.17.0.7 cluster setslot ${i} node 7e428bae84697a3882ecad19bd0d13ac7ee97d02
done
Run Code Online (Sandbox Code Playgroud)