昨天,HE.net 的 Linode 网络发生了重大中断——据推测,he.net 的“八分之一”发电机出现故障,显然,这是一种或另一种方式导致整个Linode Fremont 云下降了整整五个小时 (2015-05-29T18:30/23:30 PT)。有报道称,网络核心部分没有电源,但是,在恢复后,似乎所有服务器也可能已重新通电。
为服务器供电的最佳做法是什么?
通常仅依靠数据中心提供的电源就足够了(它们几乎总是要求使用 UPS 和发电机,不是吗?),或者您是否应该在自己的货架上安装额外的 UPS?
网络核心是否应该在自己的 UPS 下?
是否有任何主要的云或 dedi 提供商为每个服务器/机架提供专用的 UPS 单元?
东西失败。这是系统管理员生活的一部分。 任何你有一个商业计划依赖于提供100%的正常运行时间是一个坏的服务。在我说其他任何事情之前,请让我注意,我不知道有关此特定中断的任何详细信息。
也就是说,我之前曾遇到过工业级 UPS 故障。在高端科洛科洛我们有一个800A断路器故障部分开放,这意味着所有受保护的服务器都连接到两个街道和UPS电源一会儿,再没有什么了四个小时。当它回来时,我们发现我们的主数据库服务器由于快速的电源循环和尖峰而丢失了近一半的硬盘。那是有趣的一天。
当然,您可以在每个机架中使用 UPS 来复制站点 UPS 的功能。我从来没有遇到过这样做的人,我怀疑原因是它使单点故障增加了一倍,更糟糕的是,它在您的套件和工业 UPS 之间插入了第二个较低质量的 SPOF。数据中心大小的 UPS 将得到定期维护和高度监控,并且几乎永远(但不是“永远”)不会出现故障;机架大小的 UPS 更像是消费级设备,并且会更频繁地出现故障。我的个人服务器在单个 UPS 出现故障后整个周末都关闭了,尽管 colo 电源一直很好。
如果您真的想要高可用性产品,则需要 BGP 路由的 PI 网络块、分布在多个 DC 上且具有多个提供商的重复套件、带有齿的重型 SLA;整个非常非常昂贵的玉米粉蒸肉。这就是为什么我说您无需额外费用即可获得 99%;每增加一个 9,成本就会增加一个数量级。如果您组织中的任何人认为将东西放在云中意味着您不在硬件上运行或不需要担心它,那么,他们错了。