5 python artificial-intelligence machine-learning keras tensorflow
首先,我从方法论的角度意识到为什么你的损失函数必须依赖于神经网络的输出.这个问题来自于我在尝试更好地理解Keras和Tensorflow时所做的实验.考虑以下:
input_1 = Input((5,))
hidden_a = Dense(2)(input_1)
output = Dense(1)(hidden_a)
m3 = Model(input_1, output)
def myLoss (y_true, y_pred):
return K.sum(hidden_a) # (A)
#return K.sum(hidden_a) + 0*K.sum(y_pred) # (B)
m3.compile(optimizer='adam', loss=myLoss)
x = np.random.random(size=(10,5))
y = np.random.random(size=(10,1))
m3.fit(x,y, epochs=25)
Run Code Online (Sandbox Code Playgroud)
此代码导致:
ValueError: An operation has `None` for gradient. Please make sure that all of your ops have a gradient defined (i.e. are differentiable). Common ops without gradient: K.argmax, K.round, K.eval.
Run Code Online (Sandbox Code Playgroud)
但是如果你换行换行A,它会运行,B尽管事实上没有任何数字改变.
前一种情况似乎应该对我来说完全没问题.计算图很明确,一切都应该在损失方面是可区分的.但似乎Keras需要y_pred以某种方式处于损失函数中,无论它是否有任何影响.
谢谢!
事实证明,这有点棘手。实际上,Keras不需要y_pred处于损失函数中。但是,它需要在损失函数中引用所有可训练变量。
当您调用时m3.fit(),Keras将在损失函数和图层的可训练权重之间执行梯度计算。如果损失函数未引用与trainable_variables集合中相同的元素,则某些梯度计算操作将无法进行。
那么如何避免呢?好吧,y_pred即使什么都不做,您也可以参考。或者,您可以冻结不受优化器影响的层(因为无论如何您都不会计算其损失)
因此,在您的情况下,只需冻结输出层即可:
output = Dense(1, trainable = False)(hidden_a)
Run Code Online (Sandbox Code Playgroud)