BERT 的无监督微调仅用于嵌入?

Q_D*_*Dbk 3 nlp similarity bert-language-model

我想针对未标记数据的特定域微调 BERT,并让输出层检查它们之间的相似性。我该怎么做?我是否需要先微调分类器任务(或问题答案等)并获得嵌入?或者我可以只使用预先训练好的 Bert 模型而无需执行任务并使用我自己的数据进行微调?

Jin*_*ich 5

无需对分类进行微调,尤其是在您没有任何监督分类数据集的情况下。

您应该以与最初训练时相同的无监督方式继续训练 BERT,即使用掩码语言模型目标和下一句预测继续“预训练”。Hugginface 的实现包含BertForPretraining用于此的类。