Kla*_*gen 51 gpu cuda hardware-failure
我目前正在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上使用 CUDA 执行数字运算。这些操作通常需要数月才能完成,在此期间,我 24/7 离开我的电脑。
这样做安全吗?我是否冒着可能导致(最坏的情况)房屋火灾的显卡过热的风险?
请注意,PC 已正确通风且其气流没有障碍物。
Eug*_*eck 59
简短回答:这在精心设计的硬件上应该是安全的。
长答案:GPU(及其软件环境:驱动程序、操作系统、守护程序)旨在防止过热 - GPU 应首先将风扇调至更高的 RPM,如果无法保持安全温度,则 GPU 会节流工作负载(通常通过降低时钟频率)。这将确保热量分布不会损坏 GPU,因此不会损坏 PC(或房间)。
警告:存在廉价的仿冒图形卡,其固件专门设计用于牺牲安全性以换取性能。虽然我认为 1050 不存在这些,但我不是 100% 确定。您还应该更喜欢从他们的网站下载的 Nvidia 驱动程序,而不是“优化的”供应商驱动程序,它们可能会做同样的事情。
Too*_*Tea 11
发生房屋火灾的可能性极小,但可能会缩短卡的使用寿命。
GPU芯片长期过热可能不会起火。芯片可能会变质并开始行为不端或完全死亡,但硅芯片不太易燃。当电解电容器发生故障并爆炸时,通常会发生不好的事情,但这些不会因为卡正在做大量的运算而过热,并且您还希望有一个金属 PC 外壳来容纳由此类故障导致的热弹片.
但是,消费级零件通常不是为长期 24/7 负载而设计的。因此,与不承受此类负载相比,该卡很可能会更快死亡。如果没有给定模型的更多统计数据,很难说要快多少。HPC 社区中的一些人主张使用高端游戏 GPU 而不是特殊的 HPC 计算部件,这似乎有一定的经济意义。尽管商品零件会在一年左右的时间内消失,但继续更换它们会更便宜,因为它们比替代品便宜很多倍
是的,卡是容易磨损较快,如果它是恒定负载下。在小几何尺寸下,电迁移是设备故障的重要来源,并且设备的设计通常会考虑到特定的目标寿命。这对于典型操作(例如 5 年连续操作)来说可能是慷慨的,但可能不会假设所有时间都为 100% 最大操作点。一旦您开始超频,您就可以预期该目标会显着降低。(同样,由于这种故障机制,仅以 80% 的负载运行可能会使寿命延长一倍)。
当然还有其他与运行组件热或热循环有关的故障,这只是为了指出现代电子产品(甚至是 1980 年代设计糟糕的电子产品)可能容易“磨损”。
归档时间: |
|
查看次数: |
44329 次 |
最近记录: |