vio*_*opu 4 nlp pytorch bert-language-model
基础模型的 BERT 预训练是通过语言建模方法完成的,在这种方法中,我们屏蔽了句子中特定百分比的标记,并使模型学习那些缺失的掩码。然后,我认为为了完成下游任务,我们添加了一个新初始化的层,并对模型进行了微调。
然而,假设我们有一个巨大的句子分类数据集。理论上,我们能否从头开始初始化 BERT 基础架构,仅用这个句子分类数据集训练额外的下游任务特定层 + 基础模型权重形成scratch,并且仍然取得良好的结果?
谢谢。
BERT 可以被视为一种语言编码器,它在大量数据上进行训练以很好地学习语言。正如我们所知,最初的 BERT 模型是在整个英文维基百科和图书语料库上训练的,总共有3,300M字。BERT-base 有 109M 的模型参数。所以,如果你认为你有足够大的数据来训练 BERT,那么你的问题的答案是肯定的。
但是,当您说“仍然取得了不错的结果”时,我假设您是在与原始 BERT 模型进行比较。在这种情况下,答案在于训练数据的大小。
我想知道为什么你更喜欢从头开始训练 BERT 而不是微调它?是因为害怕域名适配问题吗?如果没有,预训练的 BERT 可能是一个更好的起点。
请注意,如果您想从头开始训练 BERT,您可以考虑使用更小的架构。您可能会发现以下文件很有用。
| 归档时间: |
|
| 查看次数: |
4383 次 |
| 最近记录: |