将 GPU 长时间保持在 100% 的利用率是否安全?

Kla*_*gen 51 gpu cuda hardware-failure

我目前正在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上使用 CUDA 执行数字运算。这些操作通常需要数月才能完成,在此期间,我 24/7 离开我的电脑。

这样做安全吗?我是否冒着可能导致(最坏的情况)房屋火灾的显卡过热的风险?


请注意,PC 已正确通风且其气流没有障碍物。

Eug*_*eck 59

简短回答:这在精心设计的硬件上应该是安全的。

长答案:GPU(及其软件环境:驱动程序、操作系统、守护程序)旨在防止过热 - GPU 应首先将风扇调至更高的 RPM,如果无法保持安全温度,则 GPU 会节流工作负载(通常通过降低时钟频率)。这将确保热量分布不会损坏 GPU,因此不会损坏 PC(或房间)。

警告:存在廉价的仿冒图形卡,其固件专门设计用于牺牲安全性以换取性能。虽然我认为 1050 不存在这些,但我不是 100% 确定。您还应该更喜欢从他们的网站下载的 Nvidia 驱动程序,而不是“优化的”供应商驱动程序,它们可能会做同样的事情。

  • 这不仅仅是“廉价的仿冒品”。由于冷却设计可能不足,我已经看到六(!)个来自知名制造商的完全独立的 GeForce 7600GS 以同样的方式死亡。这是一张无风扇的“超静音”卡,用于办公室工作或至多是轻度游戏。然而,高端部件可能会被设计为应对更大的热滥用,尽管可能不是 24/7 负载。 (23认同)
  • 因为加密挖掘是为了性能而牺牲安全性的典型例子。 (9认同)
  • @JohnDvorak 是的,所有非古代 CPU 都采用类似的方法 (8认同)
  • 轶事证据:在我的旧台式机上,我设法炸掉了两个可用的 CPU 风扇电源端口(灰尘太多),所以我决定密切关注 CPU,看看是否可以在没有 CPU 风扇的情况下运行机器温度。它在几分钟内达到 90C,然后显着放缓。我相信这是奔腾。 (6认同)
  • @Klangen PSU 与 GPU 的不同之处在于,它通常(除了具有 BMC 的服务器)没有主动监控温度。也就是说,PSU 被设计为“故障安全”,即如果它们以某种方式发生故障,它们不会造成额外的损坏。 (2认同)
  • @TooTea 由于新的(当时)无铅焊料在重复热*循环*(即不是恒定的)下失效,因此特定一代是制造问题。IIRC 在笔记本电脑上尤其糟糕。但现在已经了解原因,并且不太可能再次发生。 (2认同)
  • @TooTea 作为另一个轶事,我曾经有一个 GeForce 9600GT(带风扇),当它太热时会直接挂起而不是节流。因此,即使损坏不一定会发生,如果没有检查点,也可能会丢失数据/必须从头开始重新启动计算。 (2认同)
  • @IsmaelMiguel 问题的重点是,如果 GPU 工作负载的某种状态可能存在,则会在 GPU 之外造成损坏(最坏情况下的房间)-对我来说,这已经包括风扇阻塞作为故障模式。 (2认同)

Too*_*Tea 11

发生房屋火灾的可能性极小,但可能会缩短卡的使用寿命。

GPU芯片长期过热可能不会起火。芯片可能会变质并开始行为不端或完全死亡,但硅芯片不太易燃。当电解电容器发生故障并爆炸时,通常会发生不好的事情,但这些不会因为卡正在做大量的运算而过热,并且您还希望有一个金属 PC 外壳来容纳由此类故障导致的热弹片.

但是,消费级零件通常不是为长期 24/7 负载而设计的。因此,与不承受此类负载相比,该卡很可能会更快死亡。如果没有给定模型的更多统计数据,很难说要快多少。HPC 社区中的一些人主张使用高端游戏 GPU 而不是特殊的 HPC 计算部件,这似乎有一定的经济意义。尽管商品零件会在一年左右的时间内消失,但继续更换它们会更便宜,因为它们比替代品便宜很多倍

  • 加热和冷却时机械应力最严重,而不是在恒定温度下运行。OP 计划做的事情并不比连续几个月每天玩 GPU 密集型游戏更糟糕。 (6认同)
  • @technical_difficulty nVidia 驱动程序的 EULA 表示它不适用于数据中心 HPC 的使用(这对于大型中心来说当然是一个问题,但它不会阻止人们从消费部件构建内部 HPC 集群)。这里有一篇不错的文章:https://www.microway.com/knowledge-center-articles/comparison-of-nvidia-geforce-gpus-and-nvidia-tesla-gpus/ (4认同)
  • @ user912264 是的,这就是我的意思,尽管我可能用词选择不当。我绝不是律师或许可专家。我的观点是在这种情况下不允许使用驱动程序(因为您不能依赖正常的免费许可证)。 (4认同)
  • 不幸的是,Nvidia 的许可证阻止了 HPC 数据中心在其服务器中使用消费级游戏 GPU。我们需要使用更高端的 GPU,而我目前有 P100 的订单,而研究人员实际上更喜欢 1080Ti 卡。 (3认同)
  • 另请注意,让 GPU 风扇保持高速运转会增加它们的磨损。 (2认同)

Sea*_*ane 7

是的,卡容易磨损较快,如果它是恒定负载下。在小几何尺寸下,电迁移是设备故障的重要来源,并且设备的设计通常会考虑到特定的目标寿命。这对于典型操作(例如 5 年连续操作)来说可能是慷慨的,但可能不会假设所有时间都为 100% 最大操作点。一旦您开始超频,您就可以预期该目标会显着降低。(同样,由于这种故障机制,仅以 80% 的负载运行可能会使寿命延长一倍)。

当然还有其他与运行组件热或热循环有关的故障,这只是为了指出现代电子产品(甚至是 1980 年代设计糟糕的电子产品)可能容易“磨损”。

  • 对,就是这样。对于相同的“工作”,更热或更高的电压意味着更高的疲劳度。为一阶近似,用于此效果。 (2认同)