BERT 中变压器编码器和解码器的输入是什么？

Question

我正在阅读BERT 论文，但不清楚变压器编码器和解码器的输入。

对于学习掩码语言模型（Cloze 任务），论文称 15% 的标记是被掩码的，并且训练网络来预测被掩码的标记。既然如此，那么transformer编码器和解码器的输入是什么？

变压器编码器的输入是这个输入表示吗（见上图）。如果是这样，解码器的输入是什么？

此外，如何计算输出损失？它是仅用于蒙版位置的 softmax 吗？为此，所有屏蔽标记都使用相同的线性层吗？

Answer 1

啊，但是您看，BERT 不包含 Transformer 解码器。它只是编码器部分，在顶部添加了一个分类器。

对于掩码词预测，分类器充当各种解码器，试图重建掩码词的真实身份。Classifying Non-masked 不包含在分类任务中，不会影响损失。

BERT 还接受过预测一对句子是否真的先于另一个句子的训练。

我不记得这两个损失是如何加权的。

我希望这能描绘出更清晰的画面。