戴尔 PowerEdge R7525 + Nvidia A16

Aot*_*tor 3 debian dell dell-poweredge nvidia

我们有一台 PowerEdge R7525 服务器,在 debian 11 上配备 nvidia A16 显卡。但我们的 GPU 性能比其他服务器低约 50%。我怀疑是 BIOS 中缺少“4G 以上解码”选项。根据 nvidia 的说法,该服务器应处理最多 3 个 A16 GPU 单元。任何人都可以建议我一些解决方法或利用该 GPU 的全部功能的方法吗?

预先非常感谢

Gra*_*ell 6

(我在戴尔工作) - 具体来说,我做了很多优化。

我认为你有点偏离路线了;“4G 以上解码”是 BIOS PCIe 内存枚举限制为 32 位时遗留下来的功能,但现在已经不再是这样了,而且已经有一段时间没有这样了。现在寻址是本机 64 位。

但我们的 GPU 性能比其他服务器低约 50%。

我不确定你的意思是什么。我可能读得太多了,但这个陈述让我觉得这可能是你第一次尝试优化,在这种情况下,太棒了!这是一个复杂但迷人的世界。GPU 性能可以通过多种不同的方式来衡量,因此该声明本身并不能缩小问题的范围。

至于为什么你会看到性能不佳,这是一个非常复杂的问题,人们写了整本书。我看到人们特别是在基于 AMD 的服务器上犯的一些常见错误:

  • 未能考虑 PCIe 通道/进程对齐。确保针对 GPU 运行的任何进程都分配给具有 GPU PCIe 通道的进程,而不是远程进程
  • 未能针对工作负载正确设置每个核心的 NUMA(这是 R7525 等 AMD 系统所独有的)
  • 未能解决其他地方的瓶颈。例如:我曾有人看到 GPU 性能不佳,但实际上他们的软件部分受到存储 IO 限制。
  • 也许这是显而易见的,但请尝试将 BIOS 配置文件设置为性能。如果您将其设置为省电模式,可能会在您不需要时导致降频
  • 内存传输对齐不良

优化是非常特定于工作负载的。如果这是您第一次经历它,我会集中精力真正理解数据如何流动以及它可能在哪里出现瓶颈。尝试找出那些看起来不合适的事情。例如:如果您认为 GPU 性能较低,那么 GPU 利用率是多少?是100%吗?如果接近 100%,我开始倾向于软件问题。如果不是 100%,为什么不是呢?您向其提供数据的速度不够快吗?是不是卡的功率不够?服务器过热?ETC。