服务器已设置两张NVIDIA K20m卡,但已ECC启用.我观察到Volatile GPU-Utilization使用该nvidia-smi -a命令很高,即使卡中没有运行任何计算任务.该K20m只是用于计算.我已经搜查Google,并检查了以下链接:https://devtalk.nvidia.com/default/topic/539632/k20-with-high-utilization-but-no-compute-processes-/和https://开头devtalk .nvidia.com /默认/主题/ 464744 /如何对禁用-启用- ECC-ON-c2050- /
它似乎ECC总是一个不好的功能,所以它始终设置为disabled.那么真正意义ECC何在?我只是该服务器的commont用户,所以我没有权利使用该命令nvidia-smi -e 0设置ECC为禁用.普通用户是否可以将其设置ECC为禁用?
当我们关闭时有ECC什么影响?我们什么时候打开它?何时关闭?
nvidia-smi即使没有其他计算任务正在运行,GPU运行时的GPU利用率也可能变为非零.这与ECC无关.
那么ECC的真正含义是什么?
ECC是纠错码.它不是GPU独有的.在GPU上,它是一种使用额外存储器位来存储错误信息的功能,因此如果在存储器子系统中发生错误(特别严重性),则可以检测并报告,或检测和纠正错误.
普通用户是否可以将ECC设置为禁用?
禁用ECC需要root权限.
关闭ECC会有什么影响?
可用/将增加GPU应用程序可用的带宽和内存大小.如果关闭ECC并发生内存子系统错误,则不会收到任何明确的通知.根据错误发生的上下文,错误可能会产生任何影响范围,从完全没有影响到完整的应用程序崩溃.
我们什么时候打开它?何时关闭?
想要防止内存损坏错误时将其打开.如果您想获得最高性能(例如用于基准测试),或者您认为您的应用程序可以容忍内存错误(例如,您检查结果的有效性,并且您不介意重新运行由于某种原因失败的应用程序),请将其关闭.