Google CloudSQL for PostgreSQL HA 集群因维护而停机且无故障转移

Question

今天早上，我们的 Google CloudSQL for PostgreSQL 高可用 (HA) 集群出现了 5 分钟多一点的停机时间。这是在 Google 要求您提供的维护期间。

Google 很清楚为什么他们需要维护时段（请参阅此处）。令我们震惊的是停机时间的持续时间并且没有执行故障转移。

文档清楚地表明维护是在实例上执行的（而不是在整个集群上执行的）。那么为什么没有像这里记录的那样执行回退呢？他们说，这可能需要长达 60 秒的时间。但花了5分钟多一点的时间。

然后又是；这是定期维护。如果您预料到的话，不必进行自动故障转移。

我们是否误解了文档，我们是否有不切实际的期望，或者我们是否错误配置了我们的应用程序？

Answer 1

正如您所引用的文档中所述，它仅适用于实例或区域故障的情况。换句话说，只有当实例出现故障（变得无响应）或者 MySQL/PostgreSQL 实例所在区域出现问题导致无法访问实例时，Cloud SQL 才会自动切换到从实例提供数据。备用实例。

另外，在同一份文档中还指出主实例必须处于正常运行状态，这一点在需求部分中有所提及。

“几分钟”停机的影响可能是巨大的。为什么 Google 需要停机来对 HA 产品进行_计划_维护？如果情况确实如此，我认为他们的设计存在缺陷。我在使用 Amazon RDS 的 HA 版本一年多的时间里没有遇到过这种情况。 (4认同)