Transformer 编码器、Transformer 解码器、Transformer 编码器-解码器之间有什么区别？

Question

我知道GPT使用Transformer解码器，BERT使用Transformer编码器，T5使用Transformer编码器-解码器。但是有人可以帮我理解为什么GPT只使用解码器，BERT只使用编码器，而T5两者都使用？

仅使用编码器而不使用解码器、使用解码器而不使用编码器以及同时使用编码器和解码器可以做什么？

我是 NLP 新手，所以任何帮助都会很好：D 谢谢！

Answer 1

让我尝试根据这本书（Transformers 的自然语言处理）来回答你的问题：

Transformer 架构最初是为机器翻译、摘要等序列到序列任务而设计的。该 Transformer 架构包含编码器和解码器。很快，仅具有编码器或仅具有解码器的独立模型就得到了采用。

仅编码器模型 这些模型主要用于 NLU（自然语言理解）任务，例如文本分类、NER 等。这些模型计算输入文本序列的数字表示。这些模型根据文本的左右上下文计算表示，通常称为双向注意力。像 BERT 这样的模型就属于这一类。

仅解码器模型 这些模型用于 NLG（自然语言生成）任务。该模型将迭代地预测给定输入序列的最可能的下一个单词。这些模型计算的表示仅基于左侧上下文，通常称为因果或自回归注意。GPT家族的型号就属于这一类。

编码器-解码器模型 顾名思义，这些模型可用于更复杂的任务，涉及自然语言的理解和生成，例如机器翻译和摘要任务。BART、T5等车型就属于这一类。

作者还进一步提到，仅解码器和仅编码器架构之间的区别有点模糊。例如，机器翻译是一个序列到序列的任务，可以使用 GPT 模型来解决。类似地，像 BERT 这样的纯编码器模型也可以应用于摘要任务。