我正在尝试微调 gpt2 以完成生成性问答任务。
基本上我的数据格式类似于:
背景:马特今天撞坏了他的车。问:马特这一天过得怎么样?答案:不好
我正在查看 Huggingface 文档,以了解如何在自定义数据集上微调 GPT2,并且我确实在以下地址找到了有关微调的说明: https ://github.com/huggingface/transformers/tree/main/examples/pytorch /语言建模
问题是他们没有提供任何关于如何准备数据以便模型可以从中学习的指导。他们提供了可用的不同数据集,但没有一个格式适合我的任务。
如果有更多经验的人可以帮助我,我将非常感激。
祝你今天过得愉快!