前几天,我们注意到服务器机房里散发出一股难闻的烧焦味。长话短说,它最终成为 UPS 单元中燃烧的电池模块之一,但我们花了好几个小时才弄明白。我们能够弄清楚的主要原因是UPS显示器最终显示需要更换模块。
问题是:整个房间都充满了气味。进行嗅探测试非常困难,因为气味已经渗透到所有东西中(更不用说它让我们头晕目眩)。我们几乎错误地关闭了我们的生产数据库服务器,因为它是气味最强烈的地方。生命体征似乎没问题(CPU 温度显示为 60 摄氏度,风扇速度正常),但我们不确定。碰巧烧毁的电池模块与机架上的服务器高度相同,仅相距 3 英尺。如果这是真正的紧急情况,我们就会惨败。
实际上,实际服务器硬件烧毁的可能性是相当罕见的,而且大部分时间我们都会将 UPS 视为罪魁祸首。但是有几个机架和几件设备,它很快就会变成一个猜谜游戏。如何快速准确地确定哪一件设备实际上在燃烧?我意识到这个问题高度依赖于环境变量,如房间大小、通风、位置等,但任何输入都将不胜感激。
vor*_*aq7 387
普遍的共识似乎是您的问题的答案分为两部分:
你已经很好地确定了“如何”:
您可以通过多种方式提高快速发现问题的机会 - 改进监控通常是最简单的。一些问题要问:
这是一个更有趣的问题。
按下大红色开关可能会让您的公司在匆忙中花费巨额资金:清洁剂的释放可能高达数万美元,以及紧急断电后的停电/恢复成本(EPO,“放弃房间”) ) 可能是毁灭性的。
您不想因为电源中的电容器弹出并让房间闻起来而丢弃数据中心。
相反,服务器机房发生火灾可能会使您的公司损失其数据/设备,更重要的是您的员工的生命。
对“那种奇怪的燃烧气味”进行故障排除永远不应优先于安全,因此对于“火灾前”情况的故障排除有一些明确的规则很重要。
遵循的准则是我在没有(或除了)任何其他明确定义的程序/规则的情况下适用的个人限制- 它们对我很有帮助,它们可能会帮助你,但它们也很容易让我被杀或明天被解雇,所以应用它们的风险自负。
如果您看到烟雾或火灾,请放下房间
这应该不用说,但无论如何还是要说:如果有活跃的火灾(或烟雾表明很快就会发生),请撤离房间,切断电源,然后灭火抑制系统。
可能存在例外情况(练习一些常识),但这几乎总是正确的操作。
如果您要进行故障排除,请始终至少让其他人参与其中。
这是出于两个原因。首先,您不想在数据中心内四处闲逛,突然间,您正走下的那排架子上出现了一个架子,而没有人知道您在那里。其次,另一个人是您对故障排除与放弃房间的健全性检查,如果您拨打大红色开关,您可以获得第二个人同意该决定的好处(有助于避免职业限制方面的问题)如果有人稍后提出疑问,则做出这样的决定)。
排除故障时采取谨慎的安全措施
确保您始终有逃生路径(行的开放端和通往出口的畅通路径)。
派人驻守在 EPO/灭火释放处。
随身携带灭火器(请携带哈龙或其他清洁剂)。
记住上面的规则#1。
如有疑问,请离开房间。注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会挽救您的健康。
设定一个界限并坚持下去
更准确地说,设定两个界限:
您设置的限制,也可以用来让你的团队开始患处的有序关闭,所以当你DO通电吸你不崩溃一群活跃的机器,你的恢复时间会更短,但要记住,如果有序关闭时间太长,您可能不得不以安全的名义让一些系统崩溃。
相信您的直觉
如果您随时担心安全问题,请停止故障排除并清理房间。
您可能会也可能不会根据直觉离开房间,但在(相对)安全的情况下在房间外重新集结是谨慎的。
如果没有迫在眉睫的危险,您可以选择在采取 EPO 或清洁剂释放等任何激烈行动之前联系当地消防部门。(无论如何他们可能会告诉你这样做:他们的任务是保护人,然后是财产,但他们显然是处理火灾的专家,所以你应该按照他们说的去做!)
我们已经在评论中解决了这个问题,但也可以在答案中进行总结——@DeerHunter、@Chris、@Sirex 和许多其他人对讨论做出了贡献
dda*_*ero 185
热像仪可以完成这项工作,并让您确定过热的位置。像这样的设备还可以让您识别火灾或在充满烟雾的房间里燃烧的起源。
Jef*_*and 141
你没有做这些已经说过的事情。你离开了危险的环境,因为整个房间里的任何东西都对你的健康有害,可能真的会弄脏你的肺。如果房间里有你找不到的东西在燃烧的刺鼻气味,请拨打(911|112|999|任何适合您管辖范围的紧急电话号码)并让火(公司|部门|大队)在他们处理正在使用瓶装空气。
计算机部件包含各种有趣的化学物质,包括汞、镉、铅和外壳中的大量塑料。请注意,我所做的所有链接都解释了低水平暴露如何导致持久损坏甚至快速死亡。这是一个可以立即危及生命和健康的环境。
......所以真的,如果有什么东西在燃烧,不要花几个小时闻烟味。如果您无法识别它并立即采取行动遏制它,请出去。
mfi*_*nni 76
如果您对 UPS 进行了适当的监控(通常通过 SNMP),则该设备本身应该已经在您的监控系统上敲响了警钟。如果没有,请与您的供应商讨论此事。它要么出现故障,要么你的监控系统没有正确配置。
如果活动的东西真的在燃烧,它应该以某种方式抱怨它,或者干脆断网,这也应该引起警报。
如果它类似于通过绝缘层燃烧的实际电源轨,并且它不在智能 PDU 上,那么我们又回到您最初的问题,即“我如何找到燃烧的东西?” 我认为正确的答案是“联系 EPO 并弄清楚。您的生产服务器可能不够重要,不足以冒生命危险。”
小智 40
作为一个以前从事电子技术工作的人,我有过“燃烧的气味”而不是火的经历。这并不少见。
我不会因为气味而关闭数据中心。烟雾是另一回事,有些东西真的在燃烧(通常,但豌豆大小的钽电容器也可以让房间充满烟雾)。令人惊讶的是,电源中的油炸组件会发出如此多的气味。
TIC 或 IR 温度计(一种有用的工具,比 TIC 便宜很多)不一定会显示它,因为该组件根本不会产生太多热量,而且它位于外壳内。但是检查设备是否不工作,使用您的监控工具。对于这样的气味,那么 95% 的时间它将是影响整个设备性能的电源。
cur*_*cat 18
我喜欢红外成像或温度计的答案,但也许真正的“气味检测器”也有帮助。毕竟,引起您注意的是气味。烟雾、热量、红外线等都是替代品。
像这样的东西:
. 我个人从未使用过它们,甚至从未见过它们在数据中心中使用过。但至少理论上它应该是一个简洁的工具。如果你有钱花在这个小玩意上。
http://www.sca-shinyei.com/odormeter 或 http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
它为您提供气味强度和分类。因此,应该可以了解气味。当然,细节决定成败。它有多敏感,掩盖了虚假的背景气味等。
与纯粹基于温度的测量相比,一个优点是气味通常发生在更早的点或阈值。或者,如果过热的组件被身体/隐藏的布线等隐藏,则比视线热点更容易检测到分子逃逸。
另一种情况是与热无关的气味。我们之前有过冷却回路泄漏,冷却液的气味也很奇怪。我什至不会进入现在古老的啮齿动物死在管道中的案例。:)
我很惊讶这些传感器的灵敏程度。显然,硫化氢 / 硫醇等(通常是罪魁祸首)可在低于 ppm 的水平下检测到。
