我客户的一个网站上周受到了直接闪电袭击(巧合的是在 13 日星期五!)。
我离现场很远,但与现场人员一起工作时,我发现了一种奇怪的损坏模式。两个互联网链接都断开了,大多数服务器都无法访问。大部分损坏发生在MDF 中,但一个光纤连接的IDF也丢失了交换机堆叠成员上 90% 的端口。有足够的备用交换机端口可用于在其他地方重新分配布线和重新编程,但是在我们追踪受影响的设备时出现了停机时间。
这是一个新的建筑/仓储设施,服务器机房的设计进行了大量规划。主服务器机房由一台APC SmartUPS RT 8000VA双转换在线 UPS 运行,并由发电机提供支持。所有连接的设备都有适当的电源分配。异地数据复制和系统备份已经到位。
总之,损害(我知道)是:
大多数问题都与丢失 Cisco 4507R-E 中的整个交换机刀片有关。这包含一些 VMware NFS 网络和站点防火墙的上行链路。VMWare 主机出现故障,但一旦存储网络连接恢复,HA 就会处理 VM。我被迫重新启动/重启许多设备以清除时髦的电源状态。所以恢复的时间很短,但我很好奇应该吸取什么教训......
这是我的基本设置:
到目前为止,在过去的 12 个月中,以下场景在我身上发生过两次:
正如 ewwhite 所指出的,特定的UPS 型号会有所帮助:
你们中有人遇到过同样的问题吗?某些 UPS 是否有开箱即用的解决方案?
到目前为止,我已经考虑设置一些低功耗的 linux 设备(Raspberry Pi?)来接管监控;它将检查 UPS 单元是否有足够的电池电量和输入电源状态,然后通过 ILO/IPMI 重新启动服务器。
是否有任何自动解决方案太麻烦(对于我的情况和一般情况),我是否应该在发生这种情况时进行手动干预?
问候 …
简述情况:
所以我遇到了这种情况,老实说,我不知道最好的解决方案是什么。我们目前将大部分服务器(甚至是冗余 PSU)放在 1 个 UPS(旧的,没有 APC)上然后当我们开始从中吸取太多汁液时,它开始抱怨,他们又买了一个,并改变了可能最大的功率新 UPS (APC) 上的饥饿服务器(集群)
我不介意服务器在断电期间离线,我希望它们在 UPS 停止工作之前很好地停机。目前,服务器一直运行到无法获得更多电量,然后痛苦地死去。
因此,合理的情况是我们删除可以删除的服务器,以便他们从每个 UPS 中提取 50/50(尽可能)。但是,在断电期间,其中一块电池会先于另一块电池耗尽,这将导致所有服务器都从另一台 UPS 汲取电力,可能会消耗大量电量并导致瞬间断电?
所以我的问题是 PSU 从每个电源中提取 50% 的电量吗?我如何(如果需要使用新硬件)解决这种情况。当您从 UPS 中拉出太多东西时,最糟糕的情况是什么?
我想保护服务器免受峰值功率和 <5 分钟的短时中断的影响。超出此时间范围的任何事情都可以在阶梯上进行解释。或者服务器配置正常,我们知道它们可以在必要时重新启动。