为什么BERT中使用“GELU”激活函数而不是ReLu？

Question

流行的 NLP 模型BERT中使用了激活函数高斯误差线性单元（GELUs）。有什么实在的理由吗？

Answer 1

目前尚不清楚为什么某些激活函数在不同的上下文中比其他激活函数效果更好。所以“为什么使用 GELU 而不是 ReLu”的唯一答案是“因为它效果更好”

\n

编辑：有一些可能的解释，请参阅此博客。relu可能会遇到“网络中大量神经元变为零并且实际上不执行任何操作的问题”。gelu在零附近更平滑，并且“在所有范围内都是可微分的，并且允许在负范围内有梯度（尽管很小）”，这有助于解决这个问题。

\n

Answer 2

GELU 是 RELU 的更平滑版本。

ReLU 与 GELU：

我认为原因在论文中已说明：