“No Such Process”消耗GPU内存

ngu*_*dhn 6 linux nvidia

当我使用时nvidia-smi,我发现某处缺少近 20GB GPU 内存(列出的进程总数为 17745MB,同时内存使用量为 37739MB):

在此输入图像描述

然后我使用nvitop,可以看到No Such Process实际上占用了我的GPU资源。但是,我无法杀死这个 PID:

>>> sudo kill -9 118238
kill: (118238): No such process
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

我怎样才能摆脱这个幽灵进程而不打扰其他进程?

ngu*_*dhn 13

我在这个答案中找到了解决方案:/sf/answers/4160224981/

首先,我运行sudo fuser -v /dev/nvidia*查看所有进程都在使用我的 GPU RAM,但nvidia-smi未能显示。

然后,我看到了一些“幽灵”Python进程。杀死它后,GPU RAM 被释放。