当我使用时nvidia-smi,我发现某处缺少近 20GB GPU 内存(列出的进程总数为 17745MB,同时内存使用量为 37739MB):
然后我使用nvitop,可以看到No Such Process实际上占用了我的GPU资源。但是,我无法杀死这个 PID:
>>> sudo kill -9 118238
kill: (118238): No such process
Run Code Online (Sandbox Code Playgroud)
我怎样才能摆脱这个幽灵进程而不打扰其他进程?
ngu*_*dhn 13
我在这个答案中找到了解决方案:/sf/answers/4160224981/。
首先,我运行sudo fuser -v /dev/nvidia*查看所有进程都在使用我的 GPU RAM,但nvidia-smi未能显示。
然后,我看到了一些“幽灵”Python进程。杀死它后,GPU RAM 被释放。