为什么自然语言处理中的 Transformer 需要一堆编码器?

som*_*ang 6 nlp machine-learning transformer-model deep-learning

我正在关注这个关于变压器的博客

http://jalammar.github.io/illustrated-transformer/

我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕获了问题的不同表示空间。我不明白为什么需要垂直堆叠的编码器和解码器。一个编码器/解码器层不能工作吗?

小智 3

堆栈层使任何深度学习架构都变得强大,使用具有注意力的单个编码器/解码器将无法捕获整个语言建模所需的复杂性,也无法在语言翻译等复杂任务上实现高精度,堆栈的使用编码器/解码器的组合允许网络提取层次特征并对复杂问题进行建模。

  • 证明深度并不能真正证明需要 2 个不同的编码器/解码器堆栈,这就是问题的重点 (4认同)