Ahm*_*ssa 10 machine-learning neural-network deep-learning activation-function
我最近一直在阅读 Wavenet 和 PixelCNN 的论文,在这两篇论文中,他们都提到使用门控激活函数比 ReLU 效果更好。但在这两种情况下,他们都解释了为什么会这样。
我曾在其他平台(如 r/machinelearning)上问过,但到目前为止我还没有得到任何答复。可能是他们只是(偶然)尝试了这个替代品,结果却产生了良好的结果?
参考函数: y = tanh(Wk,f ? x) 。?(Wk,g ? x)
卷积的 sigmoid 和 tanh 之间的元素乘法。
我做了一些挖掘并与一位朋友进行了更多交谈,他向我指出了 Dauphin 等人的一篇论文。阿尔。关于“使用门控卷积网络进行语言建模”。他在论文的第 3 部分对此主题进行了很好的解释:
LSTM 通过由输入和遗忘门控制的单独单元实现长期记忆。这允许信息在潜在的许多时间步长中畅通无阻。如果没有这些门,信息很容易通过每个时间步的转换消失。
相比之下,卷积网络不会受到相同类型的梯度消失的影响,我们通过实验发现它们不需要遗忘门。因此,我们考虑具有单独输出门的模型,这允许网络控制哪些信息应该通过层的层次结构传播。
换句话说,这意味着他们采用了门的概念并将它们应用于顺序卷积层,以控制让什么类型的信息通过,显然这比使用 ReLU 效果更好。
编辑:但为什么它效果更好,我仍然不知道,如果有人能给我一个更直观的答案,我将不胜感激,我环顾四周,显然我们仍然基于反复试验做出判断。
| 归档时间: |
|
| 查看次数: |
1157 次 |
| 最近记录: |