RuntimeError 发生在 PyTorch 反向函数中

Question

RuntimeError 发生在 PyTorch 反向函数中

我正在尝试计算 PyTorch 中变量的梯度。但是，有一个 RuntimeError 告诉我 output 和 grad 的形状必须相同。但是，就我而言， output 和 grad 的形状不能相同。这是我要重现的代码：

import numpy as np
import torch
from torch.autograd import Variable as V

ne = 3
m, n = 79, 164
G = np.random.rand(m, n).astype(np.float64)
w = np.random.rand(n, n).astype(np.float64)
z = -np.random.rand(n).astype(np.float64)

G = V(torch.from_numpy(G))
w = V(torch.from_numpy(w))
z = V(torch.from_numpy(z), requires_grad=True)
e, v = torch.symeig(torch.diag(2 * z - torch.sum(w, dim=1)) + w, eigenvectors=True, upper=False)
ssev = torch.sum(torch.pow(e[-ne:] * v[:, -ne:], 2), dim=1)
out = torch.sum(torch.matmul(G, ssev.reshape((n, 1))))
out.backward(z)
print(z.grad)

Run Code Online (Sandbox Code Playgroud)

错误信息是： RuntimeError: Mismatch in shape: grad_output[0] has a shape of torch.Size([164]) and output[0] has a shape of torch.Size([])

TensorFlow 中允许类似的计算，我可以成功获得我想要的梯度：

import numpy as np
import tensorflow as tf

m, n = 79, 164
G = np.random.rand(m, n).astype(np.float64)
w = np.random.rand(n, n).astype(np.float64)
z = -np.random.rand(n).astype(np.float64)

def tf_function(z, G, w, ne=3):
    e, v = tf.linalg.eigh(tf.linalg.diag(2 * z - tf.reduce_sum(w, 1)) + w)
    ssev = tf.reduce_sum(tf.square(e[-ne:] * v[:, -ne:]), 1)
    return tf.reduce_sum(tf.matmul(G, tf.expand_dims(ssev, 1)))

z, G, w = [tf.convert_to_tensor(_, dtype=tf.float64) for _ in (z, G, w)]
z = tf.Variable(z)
with tf.GradientTape() as g:
    g.watch(z)
    out = tf_function(z, G, w)
print(g.gradient(out, z).numpy())

Run Code Online (Sandbox Code Playgroud)

我的 tensorflow 版本是 2.0，我的 PyTorch 版本是 1.14.0。我正在使用 Python3.6.9。在我看来，当输出和变量具有不同形状时计算梯度是非常合理的，我认为我没有犯任何错误。谁能帮我解决这个问题？对此，我真的非常感激！

Answer 1

And*_*dyK 5

首先，您不需要使用 numpy 然后转换为 Variable （顺便说一下，这已被弃用），您可以只使用G = torch.rand(m, n)etc 。其次，当您编写时，您将作为的梯度out.backward(z)传递，即，可能是由于“计算的梯度，即”的误解。相反，这个参数适用于某些函数（例如损失函数），它是用于计算向量雅可比积的张量。因此，您收到错误的原因是因为您的（及其梯度）是一个标量（零维张量）并且是一个大小为的张量，导致形状不匹配。zoutout.backward(gradient=z)out.backward(z)zdout/dzgradient = d[f(out)]/doutf dout/dz * df/doutoutdf/doutzn

要解决这个问题，正如您自己已经弄清楚的那样，只需替换out.backward(z)为out.backward()，它相当于out.backward(gradient=torch.tensor(1.))，因为在您的情况下out是标量和f(out) = out，所以d[f(out)]/dout = d(out)/d(out) = tensor(1.)。如果您的out张量是非标量，那么out.backward()将不起作用，而您必须使用out.backward(torch.ones(out.shape))（再次假设f(out) = out）。无论如何，如果您需要传递gradient到out.backward()，请确保它与具有相同的形状out。

归档时间：	5 年，10 月前
查看次数：	958 次
最近记录：	5 年，10 月前