您可以使用特定于任务的架构从头开始训练 BERT 模型吗？

Question

您可以使用特定于任务的架构从头开始训练 BERT 模型吗？

vio*_*opu 4 nlp pytorch bert-language-model

基础模型的 BERT 预训练是通过语言建模方法完成的，在这种方法中，我们屏蔽了句子中特定百分比的标记，并使模型学习那些缺失的掩码。然后，我认为为了完成下游任务，我们添加了一个新初始化的层，并对模型进行了微调。

然而，假设我们有一个巨大的句子分类数据集。理论上，我们能否从头开始初始化 BERT 基础架构，仅用这个句子分类数据集训练额外的下游任务特定层 + 基础模型权重形成scratch，并且仍然取得良好的结果？

谢谢。

Answer 1

BERT 可以被视为一种语言编码器，它在大量数据上进行训练以很好地学习语言。正如我们所知，最初的 BERT 模型是在整个英文维基百科和图书语料库上训练的，总共有3,300M字。BERT-base 有 109M 的模型参数。所以，如果你认为你有足够大的数据来训练 BERT，那么你的问题的答案是肯定的。

但是，当您说“仍然取得了不错的结果”时，我假设您是在与原始 BERT 模型进行比较。在这种情况下，答案在于训练数据的大小。

我想知道为什么你更喜欢从头开始训练 BERT 而不是微调它？是因为害怕域名适配问题吗？如果没有，预训练的 BERT 可能是一个更好的起点。

请注意，如果您想从头开始训练 BERT，您可以考虑使用更小的架构。您可能会发现以下文件很有用。

归档时间：	5 年，11 月前
查看次数：	4383 次
最近记录：	5 年，2 月前