前几天,我们注意到服务器机房里散发出一股难闻的烧焦味。长话短说,它最终成为 UPS 单元中燃烧的电池模块之一,但我们花了好几个小时才弄明白。我们能够弄清楚的主要原因是UPS显示器最终显示需要更换模块。
问题是:整个房间都充满了气味。进行嗅探测试非常困难,因为气味已经渗透到所有东西中(更不用说它让我们头晕目眩)。我们几乎错误地关闭了我们的生产数据库服务器,因为它是气味最强烈的地方。生命体征似乎没问题(CPU 温度显示为 60 摄氏度,风扇速度正常),但我们不确定。碰巧烧毁的电池模块与机架上的服务器高度相同,仅相距 3 英尺。如果这是真正的紧急情况,我们就会惨败。
实际上,实际服务器硬件烧毁的可能性是相当罕见的,而且大部分时间我们都会将 UPS 视为罪魁祸首。但是有几个机架和几件设备,它很快就会变成一个猜谜游戏。如何快速准确地确定哪一件设备实际上在燃烧?我意识到这个问题高度依赖于环境变量,如房间大小、通风、位置等,但任何输入都将不胜感激。
hardware ×1