在Keras中,为什么必须根据神经网络的输出计算损失函数?

5 python artificial-intelligence machine-learning keras tensorflow

首先,我从方法论的角度意识到为什么你的损失函数必须依赖于神经网络的输出.这个问题来自于我在尝试更好地理解Keras和Tensorflow时所做的实验.考虑以下:

input_1 = Input((5,))
hidden_a = Dense(2)(input_1)
output = Dense(1)(hidden_a)

m3 = Model(input_1, output)

def myLoss (y_true, y_pred):
    return K.sum(hidden_a)                    # (A)
    #return K.sum(hidden_a) + 0*K.sum(y_pred) # (B)

m3.compile(optimizer='adam', loss=myLoss)

x = np.random.random(size=(10,5))
y = np.random.random(size=(10,1))

m3.fit(x,y, epochs=25)
Run Code Online (Sandbox Code Playgroud)

此代码导致:

ValueError: An operation has `None` for gradient. Please make sure that all of your ops have a gradient defined (i.e. are differentiable). Common ops without gradient: K.argmax, K.round, K.eval.
Run Code Online (Sandbox Code Playgroud)

但是如果你换行换行A,它会运行,B尽管事实上没有任何数字改变.

前一种情况似乎应该对我来说完全没问题.计算图很明确,一切都应该在损失方面是可区分的.但似乎Keras需要y_pred以某种方式处于损失函数中,无论它是否有任何影响.

谢谢!

Les*_*rel 5

事实证明,这有点棘手。实际上,Keras不需要y_pred处于损失函数中。但是,它需要在损失函数中引用所有可训练变量。

当您调用时m3.fit(),Keras将在损失函数和图层的可训练权重之间执行梯度计算。如果损失函数未引用与trainable_variables集合中相同的元素,则某些梯度计算操作将无法进行。

那么如何避免呢?好吧,y_pred即使什么都不做,您也可以参考。或者,您可以冻结不受优化器影响的层(因为无论如何您都不会计算其损失)

因此,在您的情况下,只需冻结输出层即可:

output = Dense(1, trainable = False)(hidden_a)
Run Code Online (Sandbox Code Playgroud)

  • 我想我对 Keras 中张量的性质更加困惑。如果我有一个损失函数_only_依赖于`y_pred`和`y_true`,那么这对我来说是有意义的——调用该函数将一个损失张量链接到网络的输出。但是如果我在损失中包含 `hidden_​​a`,一个确实存在于损失函数本身之外的张量,会发生什么?如果我在不同的输入(例如`m3(different_input)`)上调用模型,以便现在有多个张量(我认为Keras将它们称为每层“节点”)怎么办? (2认同)