我正在阅读 BERT 模型论文。在预训练 BERT 模型时的 Masked Language Model 任务中,论文称模型会随机选择 15% 的 token。在选择的标记(Ti)中,80%将被[MASK]标记替换,10%Ti不变,10%Ti被另一个单词替换。我认为模型只需要替换为[MASK]或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程仅预测 [MASK] 标记还是预测整个随机标记的 15%?
nlp deep-learning bert-language-model
bert-language-model ×1
deep-learning ×1
nlp ×1