服务器机房里有东西在燃烧;我怎样才能快速识别它是什么?

Cha*_*son 463 hardware

前几天,我们注意到服务器机房里散发出一股难闻的烧焦味。长话短说,它最终成为 UPS 单元中燃烧的电池模块之一,但我们花了好几个小时才弄明白。我们能够弄清楚的主要原因是UPS显示器最终显示需要更换模块。

问题是:整个房间都充满了气味。进行嗅探测试非常困难,因为气味已经渗透到所有东西中(更不用说它让我们头晕目眩)。我们几乎错误地关闭了我们的生产数据库服务器,因为它是气味最强烈的地方。生命体征似乎没问题(CPU 温度显示为 60 摄氏度,风扇速度正常),但我们不确定。碰巧烧毁的电池模块与机架上的服务器高度相同,仅相距 3 英尺。如果这是真正的紧急情况,我们就会惨败。

实际上,实际服务器硬件烧毁的可能性是相当罕见的,而且大部分时间我们都会将 UPS 视为罪魁祸首。但是有几个机架和几件设备,它很快就会变成一个猜谜游戏。如何快速准确地确定哪一件设备实际上在燃烧?我意识到这个问题高度依赖于环境变量,如房间大小、通风、位置等,但任何输入都将不胜感激。

vor*_*aq7 387

普遍的共识似乎是您的问题的答案分为两部分:

我们如何找到有趣的燃烧气味的来源?

你已经很好地确定了“如何”:

  • “嗅觉测试”
  • 寻找可见的烟雾/雾霾
  • 使用热 (IR) 摄像头在房间内走动以寻找热点
  • 检查监控和设备面板是否有警报

您可以通过多种方式提高快速发现问题的机会 - 改进监控通常是最简单的。一些问题要问:

  • 您是否从您的设备中收到温度和其他健康警报?
  • 您的 UPS 系统是否向监控系统报告故障?
  • 您是否从配电设备收到电流消耗警报?
  • 房间烟雾探测器是否向监控系统报告?(他们可以吗?

我们什么时候应该排除故障而不是点击大红色开关?

这是一个更有趣的问题。
按下大红色开关可能会让您的公司在匆忙中花费巨额资金:清洁剂的释放可能高达数万美元,以及紧急断电后的停电/恢复成本(EPO,“放弃房间”) ) 可能是毁灭性的。
您不想因为电源中的电容器弹出并让房间闻起来而丢弃数据中心。

相反,服务器机房发生火灾可能会使您的公司损失其数据/设备,更重要的是您的员工的生命。
对“那种奇怪的燃烧气味”进行故障排除永远不应优先于安全,因此对于“火灾前”情况的故障排除有一些明确的规则很重要。

遵循的准则是在没有(或除了)任何其他明确定义的程序/规则的情况下适用的个人限制- 它们对我很有帮助,它们可能会帮助你,但它们也很容易让我被杀或明天被解雇,所以应用它们的风险自负。

  1. 如果您看到烟雾或火灾,请放下房间
    这应该不用说,但无论如何还是要说:如果有活跃的火灾(或烟雾表明很快就会发生),请撤离房间,切断电源,然后灭火抑制系统。
    可能存在例外情况(练习一些常识),但这几乎总是正确的操作。

  2. 如果您要进行故障排除,请始终至少让其他人参与其中。
    这是出于两个原因。首先,您不想在数据中心内四处闲逛,突然间,您正走下的那排架子上出现了一个架子,而没有人知道您在那里。其次,另一个人是您对故障排除与放弃房间的健全性检查,如果您拨打大红色开关,您可以获得第二个人同意该决定的好处(有助于避免职业限制方面的问题)如果有人稍后提出疑问,则做出这样的决定)。

  3. 排除故障时采取谨慎的安全措施
    确保您始终有逃生路径(行的开放端和通往出口的畅通路径)。
    派人驻守在 EPO/灭火释放处。
    随身携带灭火器(请携带哈龙或其他清洁剂)。
    记住上面的规则#1。
    如有疑问,请离开房间。注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会挽救您的健康。

  4. 设定一个界限并坚持下去
    更准确地说,设定两个界限:

    • 状况(“我会让这变得更糟多少?”),以及
    • 时间(“在风险太大之前,我会继续尝试找到问题多长时间?”)。

    您设置的限制,也可以用来让你的团队开始患处的有序关闭,所以当你DO通电吸你不崩溃一群活跃的机器,你的恢复时间会更短,但要记住,如果有序关闭时间太长,您可能不得不以安全的名义让一些系统崩溃。

  5. 相信您的直觉
    如果您随时担心安全问题,请停止故障排除并清理房间。
    您可能会也可能不会根据直觉离开房间,但在(相对)安全的情况下在房间外重新集结是谨慎的。

如果没有迫在眉睫的危险,您可以选择在采取 EPO 或清洁剂释放等任何激烈行动之前联系当地消防部门。(无论如何他们可能会告诉你这样做:他们的任务是保护人,然后是财产,但他们显然是处理火灾的专家,所以你应该按照他们说的去做!)

我们已经在评论中解决了这个问题,但也可以在答案中进行总结——@DeerHunter、@Chris、@Sirex 和许多其他人对讨论做出了贡献

  • 大学我去安装了一个新的数据中心。他们实施了高度复杂的 EPO/灭火系统。它所保护的设备价值数百万美元,它还被用于学校医疗部门的数百万美元研究。显然,如果需要,红色按钮会被点击,但是,如果红色按钮*被点击*,那么重置它就接近 200,000 美元。***纳税人的钱*** 你可以肯定地打赌,如果在不需要的时候按下开关,那么按下开关的人将不再有工作。 (30认同)
  • +1 为好友系统。我认为有些 DC 也使用 EPO 进行灭火,这有点疯狂。在很多情况下,您会想要 EPO,而不想将 halotron 倾倒在触电的人身上。EPO 是一项严肃的交易,但不是“摧毁 DC 中的一切有点交易”,或者至少不应该是。DC 的人应该希望能够很好地理解大红色按钮和灭火系统,以权衡按下按钮的影响。例如,EPO 实际上可以*停止*火灾并拯救 DC。 (28认同)
  • 我没有看到提到的一个重要说明是,在大多数情况下,当某些东西发生故障以散发出燃烧的气味时,任何正在燃烧的东西都会*在检测到气味之前自行熄灭*,并且不会燃烧故障设备外的任何东西。有时一台设备只要有电就会继续闷烧,但如果看到烟雾,应该可以识别设备,切断它的电源,看看烟雾是很快消失还是继续恶化。 (13认同)
  • @ryan 这让我想起了我最近看到的关于 CERN 的电视报道:摄影团队和记者真的被带到了系统的内部,有一刻,其中一个摄像师*几乎*用他的背包——让考虑重启成本的员工近乎心脏病发作...... (3认同)

dda*_*ero 185

热像仪可以完成这项工作,并让您确定过热的位置。像这样的设备还可以让您识别火灾或在充满烟雾的房间里燃烧的起源。

  • 激光测温枪,像[这个](http://www.amazon.com/gp/product/B002YE3FS4/ref=as_li_qf_sp_asin_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B002YE3FS4&linkCode=as2&tag),是a便宜的替代品 (42认同)
  • 如今,热像仪的价格不菲,如果您正在运行大型服务器机房,它们是非常值得拥有的工具。 (31认同)
  • TIC 并不昂贵,在数据中心或大型服务器机房中非常有用。不仅在电缆或设备过热等问题的情况下,而且作为问题的预防或早期检测、制冷优化、气流等。 (17认同)
  • @mfinni 电工也经常使用热像仪。(当我在托管公司工作时,每年或在任何主要布线工作之后对我们的配电板进行热成像检查是标准配置)。 (4认同)
  • 热像仪有很大的局限性: 1. 视野可能会妨碍使用 2. 您的环境可能非常密集。[会发现大火灾,但不会发现小火灾] 3. 需要平均温度来确定阈值 (3认同)
  • 虽然我同意热像仪在其他领域的用处,但在使用它来寻找“怪味”的来源时,您可能会吸入有毒烟雾。为了安全起见,人们需要配备呼吸器和经过培训可以在现场使用它的人员。问题是为什么不直接打电话给消防部门,让他们向你收费? (2认同)

Jef*_*and 141

你没有做这些已经说过的事情。你离开了危险的环境,因为整个房间里的任何东西都对你的健康有害,可能真的会弄脏你的肺。如果房间里有你找不到的东西在燃烧的刺鼻气味,请拨打(911|112|999|任何适合您管辖范围的紧急电话号码)并让火(公司|部门|大队)在他们处理正在使用瓶装空气。

计算机部件包含各种有趣的化学物质,包括和外壳中的大量塑料。请注意,我所做的所有链接都解释了低水平暴露如何导致持久损坏甚至快速死亡。这是一个可以立即危及生命和健康的环境

......所以真的,如果有什么东西在燃烧,不要花几个小时闻烟味。如果您无法识别它并立即采取行动遏制它,请出去。

  • 是的,作为一名前消防员,如果没有我的装备,我不会留在那里。即使火灾被扑灭,我们也受过训练,因为有毒气体,所以要收拾好行李。如果我要打电话给专业人士,你也应该! (21认同)
  • 应该补充的是,如果这发生在一个“真正的”数据中心,烟雾探测器与空调和灭火系统集成在一起,火警警报就会响起,房间会被密封并自动充满氩气或二氧化碳,所以甚至没有想过四处乱跑和嗅探设备。 (18认同)
  • @syneticon-dj 这取决于安装的探测器的*类型*。电离探测器可能会触发灭火,但我曾在有光学烟雾探测器的地方工作过(并且目前在那里托管设备)-那些需要可见烟雾(或至少是良好的雾霾)才能跳闸。 (8认同)
  • 我希望我能多点赞。冒着引起争议的风险,“找一个专业的”消防员是唯一的出路。 (3认同)
  • @Michael,我见过的设计并不依赖于天花板烟雾探测器,而是在回风气流中安装了光电探测器。我唯一一次看到它触发是在一次测试过程中,其中阿尔戈尼特系统已被拆卸,烟雾源已放置在其中一个壁橱中。它的工作正如我所期望的那样。值得庆幸的是,我从来没有遇到过真正的火灾。 (2认同)

mfi*_*nni 76

如果您对 UPS 进行了适当的监控(通常通过 SNMP),则该设备本身应该已经在您的监控系统上敲响了警钟。如果没有,请与您的供应商讨论此事。它要么出现故障,要么你的监控系统没有正确配置。

如果活动的东西真的在燃烧,它应该以某种方式抱怨它,或者干脆断网,这也应该引起警报。

如果它类似于通过绝缘层燃烧的实际电源轨,并且它不在智能 PDU 上,那么我们又回到您最初的问题,即“我如何找到燃烧的东西?” 我认为正确的答案是“联系 EPO 并弄清楚。您的生产服务器可能不够重要,不足以冒生命危险。”

  • 紧急断电……切断房间所有电源的大红色按钮。主要是在它着火的时候。 (39认同)
  • @chris 我必须恭敬地不同意“EPO,离开,等待”——为一个装满生产设备的房间激活 EPO 和/或清洁代理发布,这通常是我们喜欢称之为*职业限制的举动*。如果执行一些初步调查的某些设备没有*活跃的、可见的*火灾或烟雾,通常是正确的。当然,您绝对应该准备好在调查过程中的任何时候按下相应的红色按钮的同时逃离房间。 (37认同)
  • 欧洲专利局是什么意思? (13认同)
  • 直到 UPS 面板说“更换模块”的同一时刻,即使是完美的监控系统也可能无法捕捉到这一点——也就是说,您当然希望您的监控系统引起您的注意。下次某个模块可能会在周五 19:30 出现故障时,没有人在身边,监控警报将让您在问题发展为完全成熟的紧急情况之前返回并处理问题。如果您可以将监控与您的 FACP 联系起来,您的烟雾和/或热传感器甚至可能会警告您绝缘体烧毁电源轨等。 (13认同)
  • 一个强调+1,会投票+1,000。按下按钮,撤离,等待,稍后再整理。在有火有烟的情况下照常营业(并试图排除任何故障)是工程师可能犯的最严重的错误之一。 (11认同)
  • 如果我们要拥有一个在发生电气火灾时确实有价值的 BRB,我们必须在异地位置拥有我们已经具有三重冗余的 DC 的完整副本,以提供故障转移。该 DC 必须由 UL 独立认证以实现冗余,就好像它是我们唯一的一个一样,它必须能够自己处理高峰流量(这意味着我们无法用它进行负载平衡),我们将有能够通过我们的主要 DC 黑暗来实现它。现在将其与面罩和空气瓶以及 15 磅 C 类灭火器的成本进行比较。 (6认同)
  • 我看到这个论点的双方。一方面,人的生命是不可玩弄的;不是你自己的,也不是你同事的。另一方面,我在一家公司工作,该公司的数据中心是我们响应警报面板信号的人类“指挥中心”的神经中枢。我们没有 BRB,因为对我们来说,BRB 本身就是对人类生命安全的威胁(即我们的客户,他们希望我们在他们按下*他们的* 恐慌开关时就在那里)。UL 必须同意我们所做的所有 WRT 电源/网络/等操作,它会在我们 DC 的 EPO 上一路大笑。 (2认同)
  • @KeithS:这是一个非常需要的回应。+1 (2认同)

use*_*517 44

这是其中一种情况

XKCD死硬系统管理员

不适用,你应该打电话给专业人士

防护装备的消防队员

其他任何事情都只是愚蠢的。


小智 40

作为一个以前从事电子技术工作的人,我有过“燃烧的气味”而不是火的经历。这并不少见。

我不会因为气味而关闭数据中心。烟雾是另一回事,有些东西真的在燃烧(通常,但豌豆大小的钽电容器也可以让房间充满烟雾)。令人惊讶的是,电源中的油炸组件会发出如此多的气味。

TIC 或 IR 温度计(一种有用的工具,比 TIC 便宜很多)不一定会显示它,因为该组件根本不会产生太多热量,而且它位于外壳内。但是检查设备是否不工作,使用您的监控工具。对于这样的气味,那么 95% 的时间它将是影响整个设备性能的电源。

  • +1,烧断的电源很常见。在大多数具有高气流率的数据中心,烟雾会很快被吹走,并且很难找到气味的来源。然而,在一个小房间里,气味可能非常难闻,并且会迅速蔓延到整个房间。 (3认同)

cur*_*cat 18

我喜欢红外成像或温度计的答案,但也许真正的“气味检测器”也有帮助。毕竟,引起您注意的是气味。烟雾、热量、红外线等都是替代品。

像这样的东西: 来自新荣 . 我个人从未使用过它们,甚至从未见过它们在数据中心中使用过。但至少理论上它应该是一个简洁的工具。如果你有钱花在这个小玩意上。

http://www.sca-shinyei.com/odormeterhttp://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

它为您提供气味强度和分类。因此,应该可以了解气味。当然,细节决定成败。它有多敏感,掩盖了虚假的背景气味等。

与纯粹基于温度的测量相比,一个优点是气味通常发生在更早的点或阈值。或者,如果过热的组件被身体/隐藏的布线等隐藏,则比视线热点更容易检测到分子逃逸。

另一种情况是与热无关的气味。我们之前有过冷却回路泄漏,冷却液的气味也很奇怪。我什至不会进入现在古老的啮齿动物死在管道中的案例。:)

我很惊讶这些传感器的灵敏程度。显然,硫化氢 / 硫醇等(通常是罪魁祸首)可在低于 ppm 的水平下检测到。

在此处输入图片说明