小批量梯度下降中 dropout 的混淆用法

Question

小批量梯度下降中 dropout 的混淆用法

kbx*_*bxu 3 machine-learning neural-network gradient-descent tensorflow mini-batch

我的问题是最后。

一个使用小批量 GD 训练并使用最后一个全连接层（第 60 行）中的 dropout的示例CNN

fc1 = tf.layers.dropout(fc1, rate=dropout, training=is_training)

Run Code Online (Sandbox Code Playgroud)

起初我认为tf.layers.dropoutortf.nn.dropout随机将列中的神经元设置为零。但我最近发现并非如此。下面的一段代码打印了它的dropout作用。我将fc0用作 4 个样本 x 10 的特征矩阵，并将fc用作退出版本。

import tensorflow as tf
import numpy as np

fc0 = tf.random_normal([4, 10])
fc = tf.nn.dropout(fc0, 0.5)

sess = tf.Session()
sess.run(tf.global_variables_initializer())

a, b = sess.run([fc0, fc])
np.savetxt("oo.txt", np.vstack((a, b)), fmt="%.2f", delimiter=",")

Run Code Online (Sandbox Code Playgroud)

在输出中oo.txt（原始矩阵：第 1-4 行，删除矩阵：第 5-8 行）：

0.10,1.69,0.36,-0.53,0.89,0.71,-0.84,0.24,-0.72,-0.44
0.88,0.32,0.58,-0.18,1.57,0.04,0.58,-0.56,-0.66,0.59
-1.65,-1.68,-0.26,-0.09,-1.35,-0.21,1.78,-1.69,-0.47,1.26
-1.52,0.52,-0.99,0.35,0.90,1.17,-0.92,-0.68,-0.27,0.68
0.20,0.00,0.71,-0.00,0.00,0.00,-0.00,0.47,-0.00,-0.87
0.00,0.00,0.00,-0.00,3.15,0.07,1.16,-0.00,-1.32,0.00
-0.00,-3.36,-0.00,-0.17,-0.00,-0.42,3.57,-3.37,-0.00,2.53
-0.00,1.05,-1.99,0.00,1.80,0.00,-0.00,-0.00,-0.55,1.35

Run Code Online (Sandbox Code Playgroud)

我的理解正确吗？dropout 是在小批量或批量梯度下降阶段为每个样本淘汰 p%相同的单位，反向传播更新“细化网络”的权重和偏差。但是，在示例的实现中，一批中每个样本的神经元被随机丢弃，如第 5 至 8 行所示，并且对于每个样本，“细化网络”是不同的。oo.txt

作为比较，在随机梯度下降的情况下，样本被一个一个地输入神经网络，并且在每次迭代中，每个tf.layers.dropout引入的“细化网络”的权重都会更新。

我的问题是，在小批量或批量训练中，不应该实现为一批中的所有样本敲除相同的神经元吗？也许通过在每次迭代时对所有输入批次样本应用一个掩码？就像是：

# ones: a 1xN all 1s tensor # mask: a 1xN 0-1 tensor, multiply fc1 by mask with broadcasting along the axis of samples mask = tf.layers.dropout(ones, rate=dropout, training=is_training) fc1 = tf.multiply(fc1, mask)
Run Code Online (Sandbox Code Playgroud)
现在我认为示例中的 dropout 策略可能是更新某个神经元权重的加权方式，如果一个神经元保留在小批量中 10 个样本中的 1 个中，则其权重将更新为alpha * 1/10 * (y_k_hat-y_k) * x_k，比较与alpha * 1/10 * sum[(y_k_hat-y_k) * x_k]另一个神经元的权重保持所有10个样品中？

来自这里的截图

Answer 1

Sor*_*rin 6

Dropouts 通常用于防止过拟合。在这种情况下，这将是一个巨大的权重应用于其中一个神经元。通过不时将其随机设为 0，您可以强制网络使用更多的神经元来确定结果。为了使这个工作正常，您应该为每个示例删除不同的神经元，以便您计算的梯度与没有 dropout 时得到的梯度更相似。

如果您要为批次中的每个示例删除相同的神经元，我的猜测是您的梯度会不太稳定（可能对您的应用程序无关紧要）。

此外，dropout 会放大其余值，以将平均激活保持在大致相同的水平。没有它，当你关闭 dropout 时，网络会学习错误的偏见或过度饱和。

如果您仍然希望在批次中删除相同的神经元，则将 dropout 应用于形状为 (1, num_neurons) 的全 1 张量，然后将其与激活值相乘。

归档时间：	8 年，3 月前
查看次数：	1878 次
最近记录：	7 年，12 月前