RuntimeError: CUDA 错误: CUBLAS_STATUS_EXECUTION_FAILED 仅使用 GPU 调用 `cublasSgemm(handle)` 时

Question

RuntimeError: CUDA 错误: CUBLAS_STATUS_EXECUTION_FAILED 仅使用 GPU 调用 `cublasSgemm(handle)` 时

Y.J*_*ang 3 python gpu conv-neural-network pytorch

我正在研究具有一维信号的 CNN。它适用于 CPU 设备完全正常。但是，当我在 GPU 中训练模型时，发生了 CUDA 错误。我在调用os.environ['CUDA_LAUNCH_BLOCKING'] = "1"后设置命令。这样做时，发生了错误而不是错误。虽然 nvidia 文档怀疑硬件问题，但我可以用图像训练其他 CNN，没有任何错误。下面是我在训练模型中加载数据和设置数据的代码。RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILEDcublasCreate(handle)cublasSgemmcublasCreate

    idx = np.arange(len(dataset))  # dataset & label shuffle in once
    np.random.shuffle(idx)

    dataset = dataset[idx]
    sdnn = np.array(sdnn)[idx.astype(int)]        

    train_data, val_data = dataset[:int(0.8 * len(dataset))], dataset[int(0.8 * len(dataset)):]
    train_label, val_label = sdnn[:int(0.8 * len(sdnn))], sdnn[int(0.8 * len(sdnn)):]
    train_set = DataLoader(dataset=train_data, batch_size=opt.batch_size, num_workers=opt.workers)

    for i, data in enumerate(train_set, 0):  # data.shape = [batch_size, 3000(len(signal)), 1(channel)] tensor

        x = data.transpose(1, 2)
        label = torch.Tensor(train_label[i * opt.batch_size:i * opt.batch_size + opt.batch_size])
        x = x.to(device, non_blocking=True)
        label = label.to(device, non_blocking=True) # [batch size]
        label = label.view([len(label), 1])
        optim.zero_grad()

        # Feature of signal extract
        y_predict = model(x) # [batch size, fc3 output] # Error occurred HERE
        loss = mse(y_predict, label)

Run Code Online (Sandbox Code Playgroud)

以下是此代码的错误消息。

File C:/Users/Me/Desktop/Me/Study/Project/Analysis/Regression/main.py", line 217, in Processing
    y_predict = model(x) # [batch size, fc3 output]
  File "C:\Anaconda\envs\torch\lib\site-packages\torch\nn\modules\module.py", line 722, in _call_impl
    result = self.forward(*input, **kwargs)
  File "C:\Users\ME\Desktop\ME\Study\Project\Analysis\Regression\cnn.py", line 104, in forward
    x = self.fc1(x)
  File "C:\Anaconda\envs\torch\lib\site-packages\torch\nn\modules\module.py", line 722, in _call_impl
    result = self.forward(*input, **kwargs)
  File "C:\Anaconda\envs\torch\lib\site-packages\torch\nn\modules\linear.py", line 91, in forward
    return F.linear(input, self.weight, self.bias)
  File "C:\Anaconda\envs\torch\lib\site-packages\torch\nn\functional.py", line 1674, in linear
    ret = torch.addmm(bias, input, weight.t())
RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)`

Run Code Online (Sandbox Code Playgroud)

数周以来，我一直试图解决此错误，但找不到解决方案。如果您在这里看到任何错误，请告诉我。

Answer 1

Y.J*_*ang 9

通过部分关键词搜索，终于得到了类似的情况。因为稳定性，我使用了CUDA 10.2版本。参考资料要求将 CUDA 工具包升级到更高版本 - 在我的例子中是 11.2 - 问题解决了！我已经处理过其他训练过程，但这一个只会导致错误。由于CUDA错误的原因多种多样，可以通过更改版本来解决。

我尝试使用 CUDA 11.5 但它不起作用。 (2认同)

Answer 2

Yas*_*mel 6

Loich说得对，我认为形状不匹配是引发此错误的主要原因。

Conv2d我在训练图像识别模型时也遇到了这个错误，其中最终层的输出和第一层的输入的形状Linear不相同。

如果这些都不起作用，那么最好的办法是在 CPU 上运行该进程的较小版本并重新创建错误。当在 CPU 而不是 CUDA 上运行它时，您将获得更有用的回溯，可以解决您的错误。

这个答案（上面引用）中解释的一种补救措施是，禁用gpu尝试通过在上执行代码（不更改任何行）来重新创建类似的情况cpu，它应该给出更好且可以理解的错误。

PS：虽然，最初的问题表明他们的代码在CPU上执行良好，但我已经为有类似错误的人发布了这个答案，而不是由于Cuda版本不匹配。

Answer 3

Loi*_*ich 5

请注意，如果您的输入张量的维度与 nn.Linear 模块的维度不匹配，也可能导致此问题。(ex. input.shape = (a, b) and nn.Linear(c, c, bias=False)c 不匹配）。

Answer 4

PKl*_*mpp 5

在这里放置另一个答案为我解决了这个问题：

nn.Embedding如果您使用的实例接收的输入索引超出预定义的词汇范围，您将看到完全相同的错误消息。因此，如果您创建了 100 个单位的嵌入，并且输入索引 100（嵌入现在需要输入 0-99！），您最终会出现此 CUDA 错误，该错误非常难以追踪到嵌入。

归档时间：	4 年，7 月前
查看次数：	7858 次
最近记录：	4 年，1 月前