评估雷击后的设备损坏 - 我是否应该计划更多?

eww*_*ite 56 networking electrical-power datacenter disaster

我客户的一个网站上周受到了直接闪电袭击(巧合的是在 13 日星期五!)。

我离现场很远,但与现场人员一起工作时,我发现了一种奇怪的损坏模式。两个互联网链接都断开了,大多数服务器都无法访问。大部分损坏发生在MDF 中,但一个光纤连接的IDF也丢失了交换机堆叠成员上 90% 的端口。有足够的备用交换机端口可用于在其他地方重新分配布线和重新编程,但是在我们追踪受影响的设备时出现了停机时间。

这是一个新的建筑/仓储设施,服务器机房的设计进行了大量规划。主服务器机房由一台APC SmartUPS RT 8000VA双转换在线 UPS 运行,并由发电机提供支持。所有连接的设备都有适当的电源分配。异地数据复制和系统备份已经到位。

总之,损害(我知道)是:

  • Cisco 4507R-E 机箱交换机上的 48 端口线卡出现故障。
  • 4 成员堆栈中的 Cisco 2960 交换机出现故障。(哎呀...松散的堆叠电缆)
  • Cisco 2960 交换机上的几个易断端口。
  • HP ProLiant DL360 G7 主板和电源。
  • Elfiq WAN 链路平衡器。
  • 一台 Multitech 传真调制解调器。
  • WiMax/固定无线互联网天线和电源注入器。
  • 众多 PoE 连接设备(VoIP 电话、Cisco Aironet 接入点、IP 安全摄像头)

大多数问题都与丢失 Cisco 4507R-E 中的整个交换机刀片有关。这包含一些 VMware NFS 网络和站点防火墙的上行链路。VMWare 主机出现故障,但一旦存储网络连接恢复,HA 就会处理 VM。我被迫重新启动/重启许多设备以清除时髦的电源状态。所以恢复的时间很短,但我很好奇应该吸取什么教训......

  • 未来应该采取哪些额外的保护措施来保护设备?
  • 我应该如何处理保修和更换?思科和惠普正在更换合同项下的物品。昂贵的 Elfiq WAN 链接平衡器在他们的网站上有一个简介,基本上说“太糟糕了,使用网络电涌保护器”。(似乎他们期待这种失败)
  • 我在 IT 工作的时间足够长,过去曾遇到过电风暴损坏,但影响非常有限;例如,廉价PC 的网络接口或微型交换机的破坏。
  • 我还能做些什么来检测潜在的易碎设备,或者我是否只需等待奇怪的行为浮出水面?
  • 这一切只是运气不好,还是应该在灾难恢复中真正考虑在内?

有了足够的$$$,就可以在环境中构建各种冗余,但是这里的预防性/周到设计和资源的有效利用之间的合理平衡是什么?

sys*_*138 23

几个工作前,我工作的地方的一个数据中心位于一个非常大的天线下面一层。这个又大又薄的金属物品是该地区最高的东西,每 18 个月左右就会被闪电击中一次。数据中心本身建于 1980 年左右,所以我不会称它为最现代的东西,但是他们在处理雷击损坏方面有很长的经验(每次都必须更换串行通信板,如果通信板处于一个 10 年内没有制造任何新部件的系统中)。

老手提出的一件事是,所有这些杂散电流都可以找到绕过任何事物的方法,并且一旦桥接就可以在公共基础上传播。并且可以从气隙桥接。闪电是一个特例,正常的安全标准不足以防止电弧,只要有能量就会去。它有很多。如果有足够的能量,它可以从悬吊式天花板网格(也许其中一根悬吊线悬挂在与水泥中的建筑梁相连的环上)弧到 2 柱机架的顶部,然后从那里进入网络好东西。

就像黑客一样,你能做的只有这么多。您的电源上都有断路器来钳制虚假电压,但您的低压网络设备几乎从不这样做,它代表了一个非常有活力的电流路由的公共路径。


检测潜在的片状试剂盒是我在理论上知道如何做的事情,但实际上并不知道。可能你最好的办法是将可疑设备放在一个区域内,并故意将房间内的温度提高到工作范围的高端,然后看看会发生什么。运行一些测试,加载它。把它放在那里几天。任何预先存在的电气损坏所增加的热应力可能会消除一些定时炸弹。

它确实缩短了某些设备的使用寿命,但很难找出哪些设备。电源内部的电源调节电路可能已损坏组件并向服务器提供脏电,您只能通过使用专门用于测试电源的设备来检测到这种情况。


除了在屋顶上有一个巨大避雷针的设施中安装 DC 之外,我还没有考虑过雷击。一般而言,罢工是发生得如此罕见的事情之一,它被置于“上帝的行为”之下并继续前进。

但是……你已经拥有了一个。它表明您的设施至少有一次处于合适的条件。是时候评估您的设施在适当条件下的可能性并相应地制定计划了。如果您现在只考虑闪电的 DR 影响,我认为这是合适的。


Mad*_*ter 8

我一直在思考这个问题,因为它最近被编辑回首页的顶部。

我自由地规定,对于像 sysadmin1138 这样必须处理对 DC 屋顶上的大雷击具有高度吸引力的装置的人,针对大雷击的特定应急计划是有意义的。但对我们大多数人来说,这是一次性的情况,我认为一个更普遍适合我们其他人的答案可能有一定的价值。

各种电影情节威胁可想而知;肯定会发生的情况,如果这样做,无疑会破坏您的业务运营,但没有理由认为发生的可能性会增加。你知道那种事情;飞机撞击/闪电/附近的油库爆炸/任何其他看似合理但有背景风险的情况。

每一个都有一个可以实施的特定缓解计划,但我建议 - 以我上面的规定为模数 -这样做没有商业意义。正如施奈尔试图在上述相关竞赛中指出的那样,仅仅因为您可以想象一些可怕的事情发生并不会使它成为值得采取特定计划甚至是可取的威胁。什么良好的商业意识是通用的,记录,测试业务连续性计划。

您应该问自己在不同时间段(例如,24 小时、96 小时、一周、一个月)内完全站点丢失的业务成本是多少,并尝试量化每次发生的可能性。它必须是一个诚实的业务成本分析,业务的各个层面都接受。我曾在一个站点工作,那里普遍接受的停机时间为 550 万英镑/小时(那是 20 年前,当时 500 万英镑是很多钱);有了这个数字普遍同意,很多决定变得容易得多,因为它们只是简单的数学问题。

您的预算是预计损失乘以该损失的年度机会;现在看看你可以做些什么来减轻预算的威胁。

在某些情况下,这将运行到一个完整的备用数据中心,配备冷设备,24x7 随时可用。这可能意味着一个小型备用数据中心,这样客户互动就可以继续进行,而电话操作员的数量却很少,并且占位符网站会发出中断警告。这可能意味着在您的主站点上有第二个冗余路由的互联网连接,在需要之前一直处于冷态。正如马克·亨德森 (Mark Henderson) 上面指出的那样,这可能意味着保险(但涵盖业务损失以及实际恢复成本的保险);如果您可以将 BC 预算花在一张纸上,在发生灾难时可以支付您所有的预期成本,那么购买那张纸可能是有意义的 - 但不要忘记考虑承销商的失败纳入您的商业风险计划。这可能意味着将某些核心设备的维护合同升级为极其昂贵的四小时修复合同。只有您才能知道什么对您的业务有意义。

一旦你有了这个计划,你真的需要测试它(基于保险的可能除外)。我曾在一个站点工作,在那里我们有一个完整的小规模运营冷站点,准备切换到距离我们主要设施 45 分钟车程的站点。当我们遇到关闭核心网络的问题时,我们最终尝试实时修复它,而不是切换到冷站点,然后固定核心和削减。切换失败的原因之一是我们不知道切换和削减需要多长时间。因此,在做出切换决定之前,没有人真正知道应该允许事情在不切换的情况下运行多长时间,因此 - 可以理解的是 - 决定切换时保持沉默。14 小时后,我们重新上线后,头脑一片混乱;不是因为停电本身,而是因为已经花费了大量资金在一项设施上,以减轻在这样的停电期间一直未使用的一天以上的停电。

最后一点,请注意业务计划的外包组件不能保证有效。您的高级管理人员可能坐在那里想“如果我们将服务器放在云中,它们将一直在那里,我们可以解雇系统管理员”。不是这样。 云会像其他任何事情一样失败; 如果您已将关键组件外包给供应商,您所做的就是取消您估计这些组件故障可能性的能力。SLA 都非常好,但除非它们得到大量非绩效处罚的支持,否则它们是没有意义的 - 如果您的提供商可以花钱并退还您的服务费,那么他们为什么要花额外的钱来保持可用状态不可用?为了可靠,您的 SLA 需要附带与您的业务中断成本近似的处罚。是的,这会大大增加外包的成本;是的,这完全在意料之中。

  • 我应该补充...这个网站自最初发布以来被闪电击中***三次***。原因可以追溯到设施的几个区域的电气接地不足/不存在。我们起诉承包商,保险公司负责大部分更换。 (2认同)
  • 对不起,ewwhite,我的开场规定也应该更清楚地适用于你;**在*任何*风险高于背景的网站中,对我来说至少考虑专门针对该风险的缓解措施是有意义的**。我的回答更适合其他所有人,他们可能会阅读您的问题并开始思考“*好吧,我也没有闪电计划;也许我应该*”。 (2认同)

mfi*_*nni 6

这总是归结为你想花多少钱。我没有足够深入的知识来详细讨论这个问题,但我去过一个大型制药数据中心,该数据中心遭受雷击并炸毁了一个应该是多冗余避雷器(并且设计正确)的东西,但执行错误,所以有些东西通过了。)

您的 UPS 可以防止的最大峰值是多少?它应该有一个评级。显然,罢工的直接程度足以超过这个范围,或者 UPS 馈电周围有什么东西泄漏,比如坏地。因此,也许您会审查您的电源设计,确定另一次罢工的可能性,比较停机时间 X 可能性与补救的成本,也许让电工对设施进行良好的调查,以确保一切都正确接地 - 以及一些快速阅读节目安全/规范的接地不像防止雷击损坏的接地那样密集。