BERT 的无监督微调仅用于嵌入？

Question

我想针对未标记数据的特定域微调 BERT，并让输出层检查它们之间的相似性。我该怎么做？我是否需要先微调分类器任务（或问题答案等）并获得嵌入？或者我可以只使用预先训练好的 Bert 模型而无需执行任务并使用我自己的数据进行微调？

Answer 1

无需对分类进行微调，尤其是在您没有任何监督分类数据集的情况下。

您应该以与最初训练时相同的无监督方式继续训练 BERT，即使用掩码语言模型目标和下一句预测继续“预训练”。Hugginface 的实现包含BertForPretraining用于此的类。