我正在阅读BERT 论文,但不清楚变压器编码器和解码器的输入。
对于学习掩码语言模型(Cloze 任务),论文称 15% 的标记是被掩码的,并且训练网络来预测被掩码的标记。既然如此,那么transformer编码器和解码器的输入是什么?
变压器编码器的输入是这个输入表示吗(见上图)。如果是这样,解码器的输入是什么?
此外,如何计算输出损失?它是仅用于蒙版位置的 softmax 吗?为此,所有屏蔽标记都使用相同的线性层吗?
python nlp deep-learning huggingface-transformers
deep-learning ×1
huggingface-transformers ×1
nlp ×1
python ×1