Huggingface - 在本地保存微调模型 - 以及标记器?

cti*_*iid 4 bert-language-model huggingface-transformers

我只是想知道如果微调 BERT 模型并保存它,分词器是否会受到某种影响或改变。我是否也需要在本地保存分词器,以便稍后使用保存的 BERT 模型时重新加载它?

我只是做:

bert_model.save_pretrained('./Fine_tune_BERT/')
Run Code Online (Sandbox Code Playgroud)

然后稍后

bert_model = TFBertModel.from_pretrained('./Fine_tune_BERT/')
Run Code Online (Sandbox Code Playgroud)

但我也需要保存标记器吗?或者我可以以正常方式使用它,例如:

tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
Run Code Online (Sandbox Code Playgroud)

Ash*_*'Sa 8

在您的情况下,不需要保存标记生成器,因为您没有更改标记生成器或添加新标记。[MASK]Huggingface tokenizer 提供了添加新标记或重新定义特殊标记(例如、等)的选项[CLS]。如果您进行此类修改,那么您可能必须保存标记生成器以供以后重用。


Jin*_*ich 5

分词器不会受到微调的影响。分词器将分词转换为词汇索引,词汇索引在训练过程中需要保持不变,否则无法在 BERT 计算开始时训练静态嵌入。