小编Amb*_*ose的帖子

了解推理、反向传播和模型更新期间发生内存分配的原因

在追踪 GPU OOM 错误的过程中，我在 Pytorch 代码（在 Google Colab P100 上运行）中做了以下检查点：

learning_rate = 0.001
num_epochs = 50

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

print('check 1')
!nvidia-smi | grep MiB | awk '{print $9 $10 $11}'

model = MyModel()

print('check 2')
!nvidia-smi | grep MiB | awk '{print $9 $10 $11}'

model = model.to(device)

print('check 3')
!nvidia-smi | grep MiB | awk '{print $9 $10 $11}'

optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

print('check 4')
!nvidia-smi | grep MiB | awk '{print $9 $10 …

Run Code Online (Sandbox Code Playgroud)

gpu pytorch

Amb*_*ose

2021 09-10

6
推荐指数

1
解决办法

4962
查看次数

标签统计

gpu ×1

pytorch ×1

了解推理、反向传播和模型更新期间发生内存分配的原因

标签 统计

小编Amb_ose的帖子

标签统计