在小型自定义语料库上预训练语言模型

Question

在小型自定义语料库上预训练语言模型

Joh*_*Sig 5 deep-learning language-model transfer-learning bert-language-model huggingface-transformers

我很好奇是否可以在文本生成中使用迁移学习，并在特定类型的文本上重新训练/预训练。

例如，拥有一个预训练的 BERT 模型和一个小的医学（或任何“类型”）文本语料库，创建一个能够生成医学文本的语言模型。假设您没有大量的“医学文本”，这就是您必须使用迁移学习的原因。

把它作为一个管道，我会把它描述为：

使用预训练的 BERT 分词器。
从我的新文本中获取新标记并将它们添加到现有的预训练语言模型（即 vanilla BERT）中。
使用组合标记器在自定义语料库上重新训练预训练的 BERT 模型。
生成与小型自定义语料库中的文本相似的文本。

这听起来很熟悉吗？抱脸可以吗？

Answer 1

inv*_*dex 7

我没有听说过你刚才提到的管道。为了为您的用例构建 LM，您基本上有两种选择：

在您自己的语料库上进一步训练 BERT（-base/-large）模型。这个过程称为域适应，最近的论文也对此进行了描述。这将使 BERT 模型的学习参数适应您的特定领域（生物/医学文本）。尽管如此，对于这种设置，您将需要相当大的语料库来帮助 BERT 模型更好地更新其参数。
使用预先训练的语言模型，该模型在大量特定于领域的文本上进行了预先训练，可以从头开始，也可以在普通 BERT 模型上进行微调。如您所知，Google 发布的普通 BERT 模型已经在维基百科和 BookCorpus 文本上进行了训练。在普通 BERT 之后，研究人员尝试在初始数据收集之外的其他领域训练 BERT 架构。您也许能够使用这些对特定领域语言有深入了解的预训练模型。对于您的情况，有一些模型，例如：BioBERT、BlueBERT和SciBERT。

抱脸可以吗？

我不确定 Huggingface 开发人员是否已经开发出一种强大的方法来在自定义语料库上预训练 BERT 模型，正如他们声称的那样，他们的代码仍在进行中，但如果您有兴趣执行此步骤，我建议使用 Google Research 的 bert代码，该代码已在用 Tensorflow 编写，非常强大（由 BERT 作者发布）。在他们的自述文件和下面的Pre-training with BERT部分中，已经声明了确切的过程。这将为您提供 Tensorflow 检查点，如果您想使用 Pytorch/Transformers，可以轻松将其转换为 Pytorch 检查点。

归档时间：	5 年，8 月前
查看次数：	1672 次
最近记录：	5 年，2 月前