使用领域文本预训练 BERT/RoBERTa 语言模型,预计需要多长时间?哪个更快?

Cas*_*hao 2 language-model bert-language-model huggingface-transformers

我想使用域语料库(情感相关文本)预训练 BERT 和 RoBERTa MLM。使用50k~100k字需要多长时间。由于 RoBERTa 没有接受过预测下一个句子目标的训练,一个训练目标比 BERT 少,并且具有更大的小批量和学习率,我认为 RoBERTa 会快得多?

Jin*_*ich 6

10 万个单词对于训练像 BERT 或 RoBERTa 这样的大型模型来说太少了。RoBERTa 论文的主要主张是 BERT 实际上训练不足。BERT 使用 16 GB 的文本数据进行训练,而 RoBERTa 使用 160 GB 的纯文本。

对于您所描述的小型特定于域的数据,您可以尝试微调现有模型。在这种情况下,我会选择 RoBERTa,因为它似乎经过更好的预训练,没有下一个句子目标(为其预处理数据很麻烦),并且它使用 SentencePiece 进行标记化,这允许无损去代币化。