Aot*_*tor 3 debian dell dell-poweredge nvidia
我们有一台 PowerEdge R7525 服务器,在 debian 11 上配备 nvidia A16 显卡。但我们的 GPU 性能比其他服务器低约 50%。我怀疑是 BIOS 中缺少“4G 以上解码”选项。根据 nvidia 的说法,该服务器应处理最多 3 个 A16 GPU 单元。任何人都可以建议我一些解决方法或利用该 GPU 的全部功能的方法吗?
预先非常感谢
(我在戴尔工作) - 具体来说,我做了很多优化。
我认为你有点偏离路线了;“4G 以上解码”是 BIOS PCIe 内存枚举限制为 32 位时遗留下来的功能,但现在已经不再是这样了,而且已经有一段时间没有这样了。现在寻址是本机 64 位。
但我们的 GPU 性能比其他服务器低约 50%。
我不确定你的意思是什么。我可能读得太多了,但这个陈述让我觉得这可能是你第一次尝试优化,在这种情况下,太棒了!这是一个复杂但迷人的世界。GPU 性能可以通过多种不同的方式来衡量,因此该声明本身并不能缩小问题的范围。
至于为什么你会看到性能不佳,这是一个非常复杂的问题,人们写了整本书。我看到人们特别是在基于 AMD 的服务器上犯的一些常见错误:
优化是非常特定于工作负载的。如果这是您第一次经历它,我会集中精力真正理解数据如何流动以及它可能在哪里出现瓶颈。尝试找出那些看起来不合适的事情。例如:如果您认为 GPU 性能较低,那么 GPU 利用率是多少?是100%吗?如果接近 100%,我开始倾向于软件问题。如果不是 100%,为什么不是呢?您向其提供数据的速度不够快吗?是不是卡的功率不够?服务器过热?ETC。