单向 Transformer VS 双向 BERT

JSh*_*hen 2 nlp transformer-model pre-trained-model bert-language-model

我刚读完Transformer论文和BERT论文。但无法弄清楚为什么 BERT 论文中提到的 Transformer 是单向的,而 BERT 是双向的。由于他们不使用循环网络,因此解释方向并不那么简单。任何人都可以提供一些线索吗?谢谢。

Pro*_*yag 5

为了澄清起见,Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此,“Transformer 是单向的”这一说法是有误导性的。

实际上,transformer编码器是双向的,这意味着 self-attention 可以同时关注左侧和右侧的令牌。相比之下,解码器是单向的,因为在一次生成一个标记的文本时,您不能让解码器关注当前标记的右侧。转换器解码器通过向右屏蔽标记来限制自注意力。

BERT 使用变压器编码器架构,因此可以同时处理左右,从而产生“双向性”。

来自 BERT 论文本身:

我们注意到,在文献中,双向 Transformer 通常被称为“Transformer 编码器”,而仅左上下文版本被称为“Transformer 解码器”,因为它可以用于文本生成。

推荐阅读:本文