为什么自然语言处理中的 Transformer 需要一堆编码器？

Question

我正在关注这个关于变压器的博客

我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕获了问题的不同表示空间。我不明白为什么需要垂直堆叠的编码器和解码器。一个编码器/解码器层不能工作吗？

Answer 1

堆栈层使任何深度学习架构都变得强大，使用具有注意力的单个编码器/解码器将无法捕获整个语言建模所需的复杂性，也无法在语言翻译等复杂任务上实现高精度，堆栈的使用编码器/解码器的组合允许网络提取层次特征并对复杂问题进行建模。