为什么门控激活函数（在 Wavenet 中使用）比 ReLU 效果更好？

Question

为什么门控激活函数（在 Wavenet 中使用）比 ReLU 效果更好？

Ahm*_*ssa 10 machine-learning neural-network deep-learning activation-function

我最近一直在阅读 Wavenet 和 PixelCNN 的论文，在这两篇论文中，他们都提到使用门控激活函数比 ReLU 效果更好。但在这两种情况下，他们都解释了为什么会这样。

我曾在其他平台（如 r/machinelearning）上问过，但到目前为止我还没有得到任何答复。可能是他们只是（偶然）尝试了这个替代品，结果却产生了良好的结果？

参考函数： y = tanh(Wk,f ? x) 。?(Wk,g ? x)

卷积的 sigmoid 和 tanh 之间的元素乘法。

Answer 1

Ahm*_*ssa 7

我做了一些挖掘并与一位朋友进行了更多交谈，他向我指出了 Dauphin 等人的一篇论文。阿尔。关于“使用门控卷积网络进行语言建模”。他在论文的第 3 部分对此主题进行了很好的解释：

LSTM 通过由输入和遗忘门控制的单独单元实现长期记忆。这允许信息在潜在的许多时间步长中畅通无阻。如果没有这些门，信息很容易通过每个时间步的转换消失。

相比之下，卷积网络不会受到相同类型的梯度消失的影响，我们通过实验发现它们不需要遗忘门。因此，我们考虑具有单独输出门的模型，这允许网络控制哪些信息应该通过层的层次结构传播。

换句话说，这意味着他们采用了门的概念并将它们应用于顺序卷积层，以控制让什么类型的信息通过，显然这比使用 ReLU 效果更好。

编辑：但为什么它效果更好，我仍然不知道，如果有人能给我一个更直观的答案，我将不胜感激，我环顾四周，显然我们仍然基于反复试验做出判断。

归档时间：	6 年，9 月前
查看次数：	1157 次
最近记录：	6 年，9 月前