绕过tf.argmax这是不可区分的

Question

绕过tf.argmax这是不可区分的

Mar*_*gge 12 python tensorflow

我已经为我的神经网络编写了一个自定义损失函数，但是它无法计算任何梯度。我认为这是因为我需要最大值的索引，因此正在使用argmax来获取此索引。

由于argmax不可区分，所以我解决了这个问题，但是我不知道这是怎么可能的。

有人可以帮忙吗？

Answer 1

aid*_*ald 9

如果您很酷，

import tensorflow as tf
import numpy as np

sess = tf.Session()
x = tf.placeholder(dtype=tf.float32, shape=(None,))
beta = tf.placeholder(dtype=tf.float32)

# Pseudo-math for the below
# y = sum( i * exp(beta * x[i]) ) / sum( exp(beta * x[i]) )
y = tf.reduce_sum(tf.cumsum(tf.ones_like(x)) * tf.exp(beta * x) / tf.reduce_sum(tf.exp(beta * x))) - 1

print("I can compute the gradient", tf.gradients(y, x))

for run in range(10):
    data = np.random.randn(10)
    print(data.argmax(), sess.run(y, feed_dict={x:data/np.linalg.norm(data), beta:1e2}))

Run Code Online (Sandbox Code Playgroud)

这是一种技巧，可以在低温环境下计算平均值，从而得出概率空间的近似最大值。在这种情况下，低温与温度过高有关beta。

实际上，随着beta逼近无穷大，我的算法将收敛到最大值（假设最大值是唯一的）。不幸的是，在您遇到数值错误并得到之前，beta不能太大NaN，但是有一些技巧可以解决，如果您需要的话，我可以研究一下。

输出看起来像这样，

Run Code Online (Sandbox Code Playgroud)

因此，您可以看到它在某些地方变得混乱，但通常会得到正确的答案。根据您的算法，这可能很好。

“但如果你关心的话，我可以探讨一些解决问题的技巧。” 请让我知道一些避免数值溢出的方法，以及我可以了解有关此方法的更多信息的任何资源。我真的很需要它。 (2认同)

Answer 2

Nov*_*ova 8

正如aidan所建议的，它只是一个softargmax，已扩展到 beta的限制。我们可以tf.nn.softmax用来解决数字问题：

def softargmax(x, beta=1e10):
  x = tf.convert_to_tensor(x)
  x_range = tf.range(x.shape.as_list()[-1], dtype=x.dtype)
  return tf.reduce_sum(tf.nn.softmax(x*beta) * x_range, axis=-1)

Run Code Online (Sandbox Code Playgroud)

这个答案的有趣之处在于它看起来像是 TensorFlow 和 Torch 中的内置功能，而且非常酷。您是否考虑过将其作为拉取请求提供给库，也许在 API 中使用非默认选项“ Differentiable=True ”？ (2认同)

归档时间：	8 年，2 月前
查看次数：	4071 次
最近记录：	6 年，11 月前