use*_*629 9 machine-learning neural-network regularized deep-learning keras
Keras辍学的实施参考了本文.
以下摘录来自该文件:
这个想法是在测试时使用单个神经网络而不会丢失.该网络的权重是训练权重的缩小版本.如果在训练期间以概率p保留单位,则在测试时间将该单位的输出权重乘以p,如图2所示.
Keras文档提到丢失仅用于列车时间,以及Dropout实施中的以下行
x = K.in_train_phase(K.dropout(x, level=self.p), x)
似乎表明确实来自图层的输出只是在测试时间内传递.
此外,我无法找到在训练完成后按比例缩小权重的代码.我的理解是,这个缩放步骤对于使丢失工作从根本上是必要的,因为它相当于在"子网络"集合中获取中间层的预期输出.没有它,计算就不再被视为从这个"子网络"集合中进行采样.
那么,我的问题是,在Keras实施的辍学的缩放效果在哪里呢?
更新1:好的,所以Keras使用反向丢失,虽然在Keras文档和代码中称为dropout.链接http://cs231n.github.io/neural-networks-2/#reg似乎并不表示两者是等价的.回答也没有https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout.我可以看到他们做了类似的事情,但我还没有看到有人说他们完全一样.我认为他们不是.
所以一个新问题:辍学和倒退辍学相当吗?要清楚,我正在寻找说出他们是否存在的数学理由.
Mar*_*jko 10
是.它正确实施.从Dropout发明之时起 - 人们也从实施的角度对其进行了改进.Keras正在使用这种技术之一.它被称为倒退,你可以在这里阅读它.
更新:
说实话 - 在严格的数学意义上,这两种方法并不相同.在倒置的情况下,您将每个隐藏的激活乘以丢失参数的倒数.但由于该导数是线性的,它相当于将所有梯度乘以相同的因子.要克服这种差异,你必须设置不同的学习重量.从这个角度来看,这种方法不同.但从实际角度来看 - 这种方法是等效的,因为:
当然 - 以上两点都是关于倒退技术.