相关疑难解决方法(0)

评估雷击后的设备损坏 - 我是否应该计划更多?

我客户的一个网站上周受到了直接闪电袭击(巧合的是在 13 日星期五!)。

我离现场很远,但与现场人员一起工作时,我发现了一种奇怪的损坏模式。两个互联网链接都断开了,大多数服务器都无法访问。大部分损坏发生在MDF 中,但一个光纤连接的IDF也丢失了交换机堆叠成员上 90% 的端口。有足够的备用交换机端口可用于在其他地方重新分配布线和重新编程,但是在我们追踪受影响的设备时出现了停机时间。

这是一个新的建筑/仓储设施,服务器机房的设计进行了大量规划。主服务器机房由一台APC SmartUPS RT 8000VA双转换在线 UPS 运行,并由发电机提供支持。所有连接的设备都有适当的电源分配。异地数据复制和系统备份已经到位。

总之,损害(我知道)是:

  • Cisco 4507R-E 机箱交换机上的 48 端口线卡出现故障。
  • 4 成员堆栈中的 Cisco 2960 交换机出现故障。(哎呀...松散的堆叠电缆)
  • Cisco 2960 交换机上的几个易断端口。
  • HP ProLiant DL360 G7 主板和电源。
  • Elfiq WAN 链路平衡器。
  • 一台 Multitech 传真调制解调器。
  • WiMax/固定无线互联网天线和电源注入器。
  • 众多 PoE 连接设备(VoIP 电话、Cisco Aironet 接入点、IP 安全摄像头)

大多数问题都与丢失 Cisco 4507R-E 中的整个交换机刀片有关。这包含一些 VMware NFS 网络和站点防火墙的上行链路。VMWare 主机出现故障,但一旦存储网络连接恢复,HA 就会处理 VM。我被迫重新启动/重启许多设备以清除时髦的电源状态。所以恢复的时间很短,但我很好奇应该吸取什么教训......

  • 未来应该采取哪些额外的保护措施来保护设备?
  • 我应该如何处理保修和更换?思科和惠普正在更换合同项下的物品。昂贵的 Elfiq WAN 链接平衡器在他们的网站上有一个简介,基本上说“太糟糕了,使用网络电涌保护器”。(似乎他们期待这种失败)
  • 我在 …

networking electrical-power datacenter disaster

56
推荐指数
3
解决办法
6725
查看次数

UPS 正常关机后自动开机

这是我的基本设置:

  • 我运行一个服务器(DL380 G7;linux 3.13 内核),它是大约 10 个虚拟机的主机
  • 设置为自动开机
  • 我使用 NUT 进行 UPS 管理
  • Host的正常关机时间(包括首次关闭VMS)为~8-10分钟
  • UPS 的总运行时间(我有 2 个,每个为服务器中的一个 PSU 和一个连接存储的 PSU 供电)在充满电的电池上约为 75 分钟。
  • 我已经设置了 UPS/NUT 的级别,以便我拥有临界级别(LOWBATT),即在剩余 15 分钟时启动关机(我不敢再降低了)

到目前为止,在过去的 12 个月中,以下场景在我身上发生过两次:

  • 断电,UPS接管就好
  • 电源保持关闭约 1 小时 -> 关机启动,因为它应该是
  • 服务器停止虚拟机,开始关闭程序
  • --> 有时力量会回来
  • 服务器完成关机并关闭电源
  • 服务器并没有恢复联机,因为UPS已通电(再次)和服务器却从未失去动力(由UPS供应),所以基本上它看起来到服务器,就好像它一直有意正常关机。
  • 一旦我意识到我通过 ILO 远程打开服务器电源 [上次发生这种情况是今天凌晨 03:46 :-),所以这就是我问的原因]

正如 ewwhite 所指出的,特定的UPS 型号会有所帮助:

  • 伊顿 5PX 2200VA,+1 EBM
  • Roline Prosecure II,1500VA RM2U,+1 EBM

你们中有人遇到过同样的问题吗?某些 UPS 是否有开箱即用的解决方案?

到目前为止,我已经考虑设置一些低功耗的 linux 设备(Raspberry Pi?)来接管监控;它将检查 UPS 单元是否有足够的电池电量和输入电源状态,然后通过 ILO/IPMI 重新启动服务器。

是否有任何自动解决方案太麻烦(对于我的情况和一般情况),我是否应该在发生这种情况时进行手动干预?

问候 …

ups electrical-power shutdown

7
推荐指数
1
解决办法
2万
查看次数

断电时高负载双​​ UPS

简述情况:

  • 一堆服务器(大约 15 个从 4u 到 1u,一些冗余 PSU 一些单个)
  • 2 个 UPS(我可以使用 apcupsd 读取 1 个 APC)
  • 2个PDU

所以我遇到了这种情况,老实说,我不知道最好的解决方案是什么。我们目前将大部分服务器(甚至是冗余 PSU)放在 1 个 UPS(旧的,没有 APC)上然后当我们开始从中吸取太多汁液时,它开始抱怨,他们又买了一个,并改变了可能最大的功率新 UPS (APC) 上的饥饿服务器(集群)

我不介意服务器在断电期间离线,我希望它们在 UPS 停止工作之前很好地停机。目前,服务器一直运行到无法获得更多电量,然后痛苦地死去。

因此,合理的情况是我们删除可以删除的服务器,以便他们从每个 UPS 中提取 50/50(尽可能)。但是,在断电期间,其中一块电池会先于另一块电池耗尽,这将导致所有服务器都从另一台 UPS 汲取电力,可能会消耗大量电量并导致瞬间断电?

所以我的问题是 PSU 从每个电源中提取 50% 的电量吗?我如何(如果需要使用新硬件)解决这种情况。当您从 UPS 中拉出太多东西时,最糟糕的情况是什么?

我想保护服务器免受峰值功率和 <5 分钟的短时中断的影响。超出此时间范围的任何事情都可以在阶梯上进行解释。或者服务器配置正常,我们知道它们可以在必要时重新启动。

power-supply-unit supermicro

6
推荐指数
2
解决办法
639
查看次数