50 台 SuperMicro 机器上的 BSOD 0x09c

use*_*749 8 bsod supermicro

对于一个项目,我们有 50 台服务器,全部配备(通常)相同的硬件。我们在这里遇到的问题非常严重,并且发生在所有机器上。尽管付出了很多努力并联系了制造商和软件开发人员,但每个人都互相指指点点,甚至拒绝向我提供有关正在发生的事情的线索。

首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次体验,servergrade 是我一生中最大的失望。

  • 超微 X10SDV-8C+-LN2F
  • Intel Xeon D-1540(嵌入主板)
  • 定制设计的 1U 机箱或 SuperMicro 原装机箱
  • 480 瓦服务器 PSU 或 200 瓦 SuperMicro 原装 PSU
  • 三星 Evo 850 500 GB 固态硬盘
  • 32 GB DDR4-2133 ECC 或 NON-ECC(但不能混合在同一台服务器中)
  • 华硕 GT730 4GB DDR3 GPU
  • GPU 安装了 PCIe 转接卡(不是色带),无名来自中国或 SuperMicro 原装

在系统上运行 - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM 运行 GPU 密集型任务 - 该系统是库存,根本没有超频/降频

症状 - 随机 BSOD 0x09c(又名 Machine_Check_Exception):有时系统运行一周没有问题,有时仅在 10 分钟后崩溃,但大多数情况下它会运行几个小时。

已经尝试/检查:

  • BIOS 更新到最新版本(我现在认为这缩短了系统稳定的时间,但这可能是随机的)。
  • Windows 更新到最新版本。
  • VMWare 更新到最新版本。
  • 交换了所有组件并尝试了所有不同的选项,甚至尝试了台式机 ATX PSU 和 M.2 SSD。
  • 使用 Ubuntu 从头开始​​安装所有系统。我不熟悉 Linux,也从未见过 Linux BSOD,但我仍然没有见过,因为服务器系统是无头的,我在 DC 中尝试过。结果:系统会挂起,重启后 Linux 报告 XORG 崩溃(与 GPU 相关)。
  • 将 BIOS 中的 GPU 设置更改为“4G 以上”,BIOS 的其余部分为出厂默认设置。

还提供信息:

  • 系统位于数据中心。温度、空气、电源和网络均处于最佳状态。
  • 温度远低于工厂最高温度
  • 我们在台式计算机(带有台式硬件)上运行完全相同的软件设置。这些系统可以正常运行,每月 100 台 PC 中有 1 台崩溃。
  • 我已经联系了 VMWare,说这是硬件问题
  • 我已经联系了 SuperMicro,除了一些事情之外,他们什么也没说,并且已经尝试过,而且这仍然可能是软件问题。

我们在这里很绝望。我们幸运地运行的应用程序有点多余。如果一台服务器及其上的虚拟机掉线,这不是问题,其他服务器将在 5 分钟内接管负载,但按照这个速度,我需要整天在线才能重新启动服务器。

我有大量的硬件知识,但这已经过去了,我已经整天搜索了一个多月,尝试了各种不同的东西。这些主板与托管服务提供商大规模使用的事实让我怀疑主板本身没问题。这绝对不是 RMA 的特定硬件问题,因为所有 50 块板都有相同的症状。我们唯一不同的是 GPU。这与 Linux 实验相结合,让我怀疑这绝对是 PCIe 通道上的东西。GPU 本身在台式机主板上是稳定的。尽管它的内存容量很大,但它是一个小型 GPU,不会消耗太多能量。我会怀疑中国的转接卡,但我们也使用 SuperMicro 认证的转接卡,但它们根本没有改进。

我非常渴望在这里找到解决方案。这将从确定确切原因开始。我们愿意向可以分析一些转储并为我们提供更多详细信息(甚至更好的解决方案)的专家支付丰厚的赏金。

亲切的问候,

西蒙

Tri*_*ech 2

好吧,这已经太晚了,我想这个问题已经解决了吗?不管怎样,0x9C 通常意味着 MCE 硬件故障,我们的 GPU 系统运行 Linux 作为主机操作系统,它报告这些错误比 Windows 更详细一些。

不管怎样,这些是不久前在 HP 制造的类似硬件上随机出现的,最终导致 GPU 供电不足。具体来说,75W 应该由 PCIe 端口本身提供。

我们用 PCIe 分线板上的万用表进行了确认。当 GPU 和 10Gbe 网卡同时受到严重打击时,电压会下降。虽然主板能够为 x16 插槽提供 75W 的功率,但当其他卡都消耗功率时,供电部分会遇到一些困难。

这里可能怀疑竖管,并在高电流负载上降低电压。