tom*_*cat 11 transformer-model pytorch bert-language-model
我对这两种结构感到困惑。理论上,它们的输出都与其输入相关。是什么魔力让“自注意力机制”比全连接层更强大?
hkc*_*rex 18
忽略标准化、偏差等细节,全连接网络是固定权重的:
f(x) = (Wx)
Run Code Online (Sandbox Code Playgroud)
其中W是在训练中学习的,并在推理中固定的。
自注意力层是动态的,权重会随着变化而变化:
attn(x) = (Wx)
f(x) = (attn(x) * x)
Run Code Online (Sandbox Code Playgroud)
同样,这忽略了很多细节,但是不同的应用程序有许多不同的实现,您应该真正检查一下论文。
| 归档时间: |
|
| 查看次数: |
2281 次 |
| 最近记录: |