通过 Huggingface Transformer 更新 BERT 模型

Question

通过 Huggingface Transformer 更新 BERT 模型

use*_*021 8 nlp spacy tensorflow pytorch huggingface-transformers

我正在尝试使用内部语料库更新预训练的 BERT 模型。我查看了 Huggingface Transformer 文档，但正如您将在下面看到的那样，我有点卡住了。我的目标是使用余弦距离计算句子之间的简单相似性，但我需要为我的特定用例更新预训练模型。

如果您查看下面的代码，它恰好来自 Huggingface 文档。我正在尝试“重新训练”或更新模型，我假设 special_token_1 和 special_token_2 代表我的“内部”数据或语料库中的“新句子”。这样对吗？总之，我喜欢已经预先训练好的 BERT 模型，但我想更新它或使用另一个内部数据集重新训练它。任何线索将不胜感激。

import tensorflow as tf
import tensorflow_datasets
from transformers import *

model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

SPECIAL_TOKEN_1="dogs are very cute"
SPECIAL_TOKEN_2="dogs are cute but i like cats better and my 
brother thinks they are more cute"

tokenizer.add_tokens([SPECIAL_TOKEN_1, SPECIAL_TOKEN_2])
model.resize_token_embeddings(len(tokenizer))
#Train our model
model.train()
model.eval()

Run Code Online (Sandbox Code Playgroud)

Answer 1

Nie*_*els 6

BERT 针对 2 个任务进行了预训练：掩码语言建模 (MLM) 和下一句预测 (NSP)。这两者中最重要的是 MLM（事实证明，下一个句子预测任务对于模型的语言理解能力并没有多大帮助——例如 RoBERTa 仅在 MLM 上进行了预训练）。

如果您想在自己的数据集上进一步训练模型，可以通过BERTForMaskedLM在 Transformers 存储库中使用来实现。这是顶部带有语言建模头的 BERT，它允许您在自己的数据集上执行屏蔽语言建模（即预测屏蔽标记）。使用方法如下：

from transformers import BertTokenizer, BertForMaskedLM 
import torch   

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') 
model = BertForMaskedLM.from_pretrained('bert-base-uncased', return_dict=True) 

inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt") 
labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]

outputs = model(**inputs, labels=labels) 
loss = outputs.loss 
logits = outputs.logits

Run Code Online (Sandbox Code Playgroud)

您可以使用更新 BertForMaskedLM 的权重loss.backward()，这是训练 PyTorch 模型的主要方式。如果您不想自己执行此操作，Transformers 库还提供了一个 Python 脚本，可让您在自己的数据集上快速执行 MLM。请参阅此处（“RoBERTa/BERT/DistilBERT 和掩码语言建模”部分）。您只需要提供培训和测试文件。

您不需要添加任何特殊标记。特殊标记的示例是 [CLS] 和 [SEP]，它们用于序列分类和问答任务（等等）。这些是自动添加的tokenizer。我怎么知道这个？因为BertTokenizer继承自，如果你在这里PretrainedTokenizer查看其__call__方法的文档，你可以看到该参数默认为 True。add_special_tokens

归档时间：	6 年，2 月前
查看次数：	2210 次
最近记录：	5 年，2 月前