小编Lio*_*ior的帖子

我有一个 PyTorch 计算图，它由一个执行一些计算的子图组成，然后这个计算的结果（我们称之为x）被分支到另外两个子图。这两个子图中的每一个都会产生一些标量结果（让我们称它们为y1和y2）。我想对这两个结果中的每一个都做一个反向传递（即我想累加两个子图的梯度。我不想执行实际的优化步骤）。

现在，由于内存是这里的一个问题，我想按以下顺序执行操作：首先，计算x。然后，计算y1，并执行y1.backward()while（这是关键点）保留通向的图x，但将图从释放x到y1。然后，计算y2，并执行y2.backward()。

换句话说，为了在不牺牲太多速度的情况下节省内存，我想保留x而不需要重新计算它，但是我想在我不再需要它们之后删除所有从x到的计算y1。

问题是retain_graph函数的参数backward()将保留通向的整个图y1，而我只需要保留通向的图的一部分x。

这是我理想中想要的示例：

import torch

w = torch.tensor(1.0)
w.requires_grad_(True)

# sub-graph for calculating `x`
x = w+10

# sub-graph for calculating `y1`
x1 = x*x
y1 = x1*x1
y1.backward(retain_graph=x) # this would not work, …

Run Code Online (Sandbox Code Playgroud)

pytorch

Lio*_*ior

2018 06-08

2
推荐指数

1
解决办法

2520
查看次数