RedShift节点故障转移

die*_*cht 5 failovercluster amazon-web-services amazon-redshift

我有一个包含4个节点的RedShift集群.

  1. 当其中一个节点发生故障时,整个群集是否会变为不可用?
  2. 如果是 - 多久?
  3. 当集群返回时 - 它是否返回到失败前的完全相同的点,或者数据可能会在几小时前回滚到S3快照?
  4. 我如何模拟这种情况来自己检查这种情况?

非常感谢!

die*_*cht 8

如果是单节点故障 - 亚马逊将启动一个新节点并从其他节点流式传输数据(如果有的话,每个块都写入两个不同的节点).在这种情况下,我们可以期待:

  1. 整个群集的停机时间,直到新节点启动+填充数据库信息.应该是3-4分钟左右.
  2. 在这3-4分钟之后,该群集将返回到它下降之前的完全相同的点.群集将可用于读取和写入.
  3. 由于群集中的数据重新分配,将经历一些减速.

如果多个节点出现故障,redshift将从最新的S3备份中恢复自身.S3备份在以下场合完成:

  1. 如果自上次备份以来已经过了8个小时
  2. 如果自上次备份以来RedShift充满了超过5GB的数据
  3. 手动
  4. 当您选择终止群集时,可以选择最终快照


Tom*_*icz 5

它恰好发生在我的集群上 - 其中一个节点失败了.在仪表板中花了差不多20分钟才注意到("性能"选项卡中显示不健康,但"状态"选项卡中显示健康状况).

从最初的故障开始1小时后,集群将其状态更改为"正在修改",并且在1小时后,新节点就位.

"最近事件"中有一条消息:

Amazon Redshift群集'xxx'上的节点在2013-12-18 11:42 UTC自动替换.群集现在正常运行.

整个时间集群都不可用 - 没有运行任何查询,也无法进行导入.

数据与失败时的数据完全相同.