当我使用RELU激活时,为什么我的TensorFlow网络权重和成本NaN？

Question

当我使用RELU激活时,为什么我的TensorFlow网络权重和成本NaN？

oro*_*ome 8 machine-learning nan tensorflow

我不能让TensorFlow RELU激活(既不是tf.nn.relu也没有tf.nn.relu6)在没有NaN值的情况下进行激活和权重杀死我的训练运行.

我相信我正在遵循所有正确的一般建议.例如,我用我的初始化我的权重

weights = tf.Variable(tf.truncated_normal(w_dims, stddev=0.1))
biases = tf.Variable(tf.constant(0.1 if neuron_fn in [tf.nn.relu, tf.nn.relu6] else 0.0, shape=b_dims))

Run Code Online (Sandbox Code Playgroud)

并使用较慢的训练率,例如,

tf.train.MomentumOptimizer(0.02, momentum=0.5).minimize(cross_entropy_loss)

Run Code Online (Sandbox Code Playgroud)

但任何可观深度的网络都会导致NaN成本和至少一些权重(至少在它们的摘要直方图中).事实上,成本通常NaN是从一开始(训练前).

即使我使用L2(约0.001)正则化和辍学(约50%),我似乎也有这些问题.

是否有一些参数或设置我应该调整以避免这些问题？我不知道哪里开始寻找,所以任何建议都将不胜感激!

Answer 1

oro*_*ome 7

跟随他等.al(如lejlot评论中所述),将第l层的权重初始化为具有标准差的零均值高斯分布

$\sqrt{\frac{2}{n_l}}$

其中n _l是输入向量的平坦长度或

stddev=np.sqrt(2 / np.prod(input_tensor.get_shape().as_list()[1:]))

Run Code Online (Sandbox Code Playgroud)

导致权重通常不会发散.

Answer 2

Vin*_*cke 5

如果您在网络顶部使用 softmax 分类器，请尝试使刚好在 softmax 下方的层的初始权重非常小（例如 std=1e-4）。这使得网络输出的初始分布非常柔软（高温），并有助于确保优化的前几步不会太大且数值不稳定。

Answer 3

top*_*ara 5

您是否尝试过梯度裁剪和/或较小的学习率？

基本上，您需要在应用渐变之前处理它们，如下所示（主要来自 tf 文档）：

# Replace this with what follows
# opt = tf.train.MomentumOptimizer(0.02, momentum=0.5).minimize(cross_entropy_loss)

# Create an optimizer.
opt = tf.train.MomentumOptimizer(learning_rate=0.001, momentum=0.5)

# Compute the gradients for a list of variables.
grads_and_vars = opt.compute_gradients(cross_entropy_loss, tf.trainable_variables())

# grads_and_vars is a list of tuples (gradient, variable).  Do whatever you
# need to the 'gradient' part, for example cap them, etc.
capped_grads_and_vars = [(tf.clip_by_value(gv[0], -5., 5.), gv[1]) for gv in grads_and_vars]

# Ask the optimizer to apply the capped gradients.
opt = opt.apply_gradients(capped_grads_and_vars)

Run Code Online (Sandbox Code Playgroud)

此外，这个问题中的讨论可能会有所帮助。

归档时间：	9 年，6 月前
查看次数：	8898 次
最近记录：	9 年，5 月前