为什么输入在张量流中的tf.nn.dropout中缩放?

Shu*_*his 35 machine-learning neural-network deep-learning tensorflow

我无法理解为什么dropout在tensorflow中这样工作.CS231n的博客说,"dropout is implemented by only keeping a neuron active with some probability p (a hyperparameter), or setting it to zero otherwise."你也可以从图片中看到这个(取自同一网站) 在此输入图像描述

来自tensorflow网站, With probability keep_prob, outputs the input element scaled up by 1 / keep_prob, otherwise outputs 0.

现在,为什么输入元素按比例放大1/keep_prob?为什么不保持输入元素的概率而不是用它来缩放1/keep_prob

mrr*_*rry 50

这种扩展使得相同的网络可用于训练(使用keep_prob < 1.0)和评估(使用keep_prob == 1.0).从辍学文件:

这个想法是在测试时使用单个神经网络而不会丢失.该网络的权重是训练权重的缩小版本.如果在训练期间以概率p保留单位,则在测试时间将该单位的输出权重乘以p,如图2所示.

而不是增加OPS通过按比例缩小的权重keep_prob,在测试时,TensorFlow实现增加了一个运算规模增长的权重1. / keep_prob,在训练时间.对性能的影响可忽略不计,并且所述代码是简单的(因为我们使用相同的曲线图和治疗keep_prob作为tf.placeholder()被馈送取决于是否我们正在训练或评估该网络的不同的值).

  • 目的是保持权重的预期总和相同 - 因此激活的预期值相同&mdash;无论"keep_prob"如何.如果(当进行辍学时)我们禁用概率为"keep_prob"的神经元,我们需要将其他权重乘以1./ keep_prob`保持此值不变(期望值).否则,例如,非线性会产生完全不同的结果,具体取决于`keep_prob`的值. (13认同)

Tri*_*ath 5

假设网络有n神经元,我们应用了丢失率1/2

训练阶段,我们将留下n/2神经元。因此,如果您期望x所有神经元都有输出,那么现在您就可以了x/2。因此对于每个批次,网络权重都根据这个 x/2 进行训练

测试/推理/验证阶段,我们不应用任何 dropout,因此输出为 x。因此,在这种情况下,输出将是 x 而不是 x/2,这会给出错误的结果。所以你可以做的就是在测试期间将其缩放到 x/2。

而不是上述特定于测试阶段的缩放。Tensorflow 的 dropout 层的作用是,无论是否有 dropout(训练或测试),它都会缩放输出,使总和保持不变。