尝试在 pytorch 中使用 cuda 时出现运行时错误 999

Mat*_*hew 5 python pytorch

我为 Geforce 2080 ti 安装了 Cuda 10.1 和最新的 Nvidia 驱动程序。我尝试运行一个基本脚本来测试 pytorch 是否正常工作,但出现以下错误:

RuntimeError: cuda runtime error (999) : unknown error at ..\aten\src\THC\THCGeneral.cpp:50

下面是我试图运行的代码:

import torch
torch.cuda.current_device()
torch.cuda.is_available()
torch.cuda.get_device_name(0)
Run Code Online (Sandbox Code Playgroud)

Daw*_*zuk 10

对于 PyTorch,似乎仅用以下命令重新启动nvidia-uvm(统一虚拟内存)就足够了

sudo modprobe --remove nvidia-uvm  # same as `rmmod`
sudo modprobe nvidia-uvm
Run Code Online (Sandbox Code Playgroud)

如果这不起作用,请继续并modprobe (--remove) nvidia使用@matwilso's 答案中提到的附加内容重新启动整个模块。


mat*_*lso 7

重新启动我的电脑为我解决了这个问题。

但是对于侵入性较小的修复,您也可以尝试此解决方案(来自tensorflow 问题线程):

sudo rmmod nvidia_uvm
sudo rmmod nvidia
sudo modprobe nvidia
sudo modprobe nvidia_uvm
Run Code Online (Sandbox Code Playgroud)

  • 这对我不起作用,因为 `rmmod nvidia` 给出以下错误:`rmmod:错误:模块 nvidia 正在使用:nvidia_modeset` (2认同)