Google CloudSQL for PostgreSQL HA 集群因维护而停机且无故障转移

Tom*_*eer 5 google-cloud-sql

今天早上,我们的 Google CloudSQL for PostgreSQL 高可用 (HA) 集群出现了 5 分钟多一点的停机时间。这是在 Google 要求您提供的维护期间。

Google 很清楚为什么他们需要维护时段(请参阅此处)。令我们震惊的是停机时间的持续时间并且没有执行故障转移。

文档清楚地表明维护是在实例上执行的(而不是在整个集群上执行的)。那么为什么没有像这里记录的那样执行回退呢?他们说,这可能需要长达 60 秒的时间。但花了5分钟多一点的时间。

然后又是;这是定期维护。如果您预料到的话,不必进行自动故障转移。

我们是否误解了文档,我们是否有不切实际的期望,或者我们是否错误配置了我们的应用程序?

小智 0

正如您所引用的文档中所述,它仅适用于实例或区域故障的情况。换句话说,只有当实例出现故障(变得无响应)或者 MySQL/PostgreSQL 实例所在区域出现问题导致无法访问实例时,Cloud SQL 才会自动切换到从实例提供数据。备用实例。

另外,在同一份文档中还指出主实例必须处于正常运行状态,这一点在需求部分中有所提及。

  • “几分钟”停机的影响可能是巨大的。为什么 Google 需要停机来对 HA 产品进行_计划_维护?如果情况确实如此,我认为他们的设计存在缺陷。我在使用 Amazon RDS 的 HA 版本一年多的时间里没有遇到过这种情况。 (4认同)