小编mys*_*uke的帖子

我正在阅读BERT 论文，但不清楚变压器编码器和解码器的输入。

对于学习掩码语言模型（Cloze 任务），论文称 15% 的标记是被掩码的，并且训练网络来预测被掩码的标记。既然如此，那么transformer编码器和解码器的输入是什么？

变压器编码器的输入是这个输入表示吗（见上图）。如果是这样，解码器的输入是什么？

此外，如何计算输出损失？它是仅用于蒙版位置的 softmax 吗？为此，所有屏蔽标记都使用相同的线性层吗？

6
推荐指数

1
解决办法

2113
查看次数

nlp ×1

小编mys_uke的帖子