对于一个项目,我们有 50 台服务器,全部配备(通常)相同的硬件。我们在这里遇到的问题非常严重,并且发生在所有机器上。尽管付出了很多努力并联系了制造商和软件开发人员,但每个人都互相指指点点,甚至拒绝向我提供有关正在发生的事情的线索。
首先让我描述一下设置。这是“服务器级”硬件。对于我的第一次体验,servergrade 是我一生中最大的失望。
在系统上运行 - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM 运行 GPU 密集型任务 - 该系统是库存,根本没有超频/降频
症状 - 随机 BSOD 0x09c(又名 Machine_Check_Exception):有时系统运行一周没有问题,有时仅在 10 分钟后崩溃,但大多数情况下它会运行几个小时。
已经尝试/检查:
还提供信息:
我们在这里很绝望。我们幸运地运行的应用程序有点多余。如果一台服务器及其上的虚拟机掉线,这不是问题,其他服务器将在 5 分钟内接管负载,但按照这个速度,我需要整天在线才能重新启动服务器。
我有大量的硬件知识,但这已经过去了,我已经整天搜索了一个多月,尝试了各种不同的东西。这些主板与托管服务提供商大规模使用的事实让我怀疑主板本身没问题。这绝对不是 RMA 的特定硬件问题,因为所有 50 块板都有相同的症状。我们唯一不同的是 GPU。这与 Linux 实验相结合,让我怀疑这绝对是 PCIe 通道上的东西。GPU 本身在台式机主板上是稳定的。尽管它的内存容量很大,但它是一个小型 GPU,不会消耗太多能量。我会怀疑中国的转接卡,但我们也使用 SuperMicro 认证的转接卡,但它们根本没有改进。
我非常渴望在这里找到解决方案。这将从确定确切原因开始。我们愿意向可以分析一些转储并为我们提供更多详细信息(甚至更好的解决方案)的专家支付丰厚的赏金。
亲切的问候,
西蒙
好吧,这已经太晚了,我想这个问题已经解决了吗?不管怎样,0x9C 通常意味着 MCE 硬件故障,我们的 GPU 系统运行 Linux 作为主机操作系统,它报告这些错误比 Windows 更详细一些。
不管怎样,这些是不久前在 HP 制造的类似硬件上随机出现的,最终导致 GPU 供电不足。具体来说,75W 应该由 PCIe 端口本身提供。
我们用 PCIe 分线板上的万用表进行了确认。当 GPU 和 10Gbe 网卡同时受到严重打击时,电压会下降。虽然主板能够为 x16 插槽提供 75W 的功率,但当其他卡都消耗功率时,供电部分会遇到一些困难。
这里可能怀疑竖管,并在高电流负载上降低电压。
归档时间: |
|
查看次数: |
341 次 |
最近记录: |