“自注意力机制”和“全连接”层有什么区别？

Question

我对这两种结构感到困惑。理论上，它们的输出都与其输入相关。是什么魔力让“自注意力机制”比全连接层更强大？

Answer 1

忽略标准化、偏差等细节，全连接网络是固定权重的：

f(x) = (Wx)

其中W是在训练中学习的，并在推理中固定的。

自注意力层是动态的，权重会随着变化而变化：

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样，这忽略了很多细节，但是不同的应用程序有许多不同的实现，您应该真正检查一下论文。