重置单个GPU的内存使用情况

a_p*_*ida 6 gpu gpgpu nvidia

我可以访问 4 个 GPU(不是 root 用户)。其中一个 GPU(2 号)的行为很奇怪,它们的一些内存被阻塞,但功耗和温度非常低(就好像没有任何东西在上面运行一样)。nvidia-smi请参阅下图中 的详细信息:nvidia-smi 输出

如何重置 GPU 2,而不干扰其他 GPU 上运行的进程?

PS:我不是root用户,但我想我也可以抓住一些root用户。

小智 6

重置 GPU 可以以某种方式解决您的问题,但由于您的 GPU 配置,这可能是不可能的

nvidia-smi --gpu-reset -i "gpu ID"
Run Code Online (Sandbox Code Playgroud)

例如,如果您启用了 GPU 的 nvlink,它并不总是会通过,而且您的情况下的 nvidia-smi 似乎无法找到在您的 GPU 上运行的进程,您的情况的解决方案是找到并杀死相关进程通过运行以下命令来该 GPU,用您通过 fusionr 找到的 PID 填写

fuser -v /dev/nvidia*

kill -9 "PID"
Run Code Online (Sandbox Code Playgroud)