“自注意力机制”和“全连接”层有什么区别?

tom*_*cat 11 transformer-model pytorch bert-language-model

我对这两种结构感到困惑。理论上,它们的输出都与其输入相关。是什么魔力让“自注意力机制”比全连接层更强大?

hkc*_*rex 18

忽略标准化、偏差等细节,全连接网络是固定权重的:

f(x) = (Wx)
Run Code Online (Sandbox Code Playgroud)

其中W是在训练中学习的,并在推理中固定的。

自注意力层是动态的,权重会随着变化而变化:

attn(x) = (Wx)
f(x) = (attn(x) * x)
Run Code Online (Sandbox Code Playgroud)

同样,这忽略了很多细节,但是不同的应用程序有许多不同的实现,您应该真正检查一下论文。

  • @tom_cat 理论上来说,多个FC可以模拟任意功能。 (7认同)