Tol*_*olu 3 language-model roberta roberta-language-model gpt-4 large-language-model
是否有可能对像 Roberta 这样的小得多的语言模型(例如客户服务数据集)进行微调,并获得与使用部分数据集提示 GPT-4 所获得的结果一样好的结果?
经过微调的 Roberta 模型能否学会以对话方式遵循指令,至少对于这样的小领域?
有没有任何论文或文章可以根据经验探讨这个问题?
我找到了一篇中等文章,它对澄清这一点大有帮助。
引用上面的结论,
在低数据域中,提示显示出优于相应微调方法的性能。为了在微调方面击败 SOTA 基准,利用大型冻结语言模型并结合调整软提示似乎是前进的方向。
这似乎提示,如果训练数据较小,法学硕士可能会在特定领域任务上优于微调较小的模型,反之亦然。
此外,根据我个人使用 ChatGPT、Bard、Bing、Vicuna-3b、Dolly-v2-12b 和 Illama-13b 的轶事经验,ChatGPT、Bard 和 Bing 大小的模型似乎已经学会很好地模仿人类对语言的理解足以能够从推理时提供的上下文中提取有意义的答案。在我看来,较小的模型不具备模仿能力,并且在推理时的上下文学习中可能表现不佳。它们也可能太大,不适合在非常有限的领域进行微调。我的预感是,对于非常有限的领域,如果要走微调路线,可以在更小的模型上进行微调,例如 BERT 或 Roberta(或者用于生成任务的 GPT-2 或 GPT-J 的较小变体),而不是在这些中型模型在资源方面可能是更谨慎的方法。
在领域数据上微调较小模型的另一种方法可能是对中型模型使用更仔细、更严格的提示。这可能是使用大型专有模型所有者提供的 API 的可行替代方案。