AutoModelForSeq2SeqLM 和 AutoModelForCausalLM 之间的区别

mm2*_*256 14 nlp machine-learning huggingface-transformers

正如标题所示,Huggingface 上的这两个 Auto 类有何不同?我尝试阅读文档但没有找到区分信息

Xin*_* Li 13

直观上,AutoModelForSeq2SeqLM用于具有编码器-解码器架构的语言模型,如 T5 和 BART,而AutoModelForCausalLM用于自回归语言模型,如所有 GPT 模型。

这两个类是概念性 API,用于自动推断两种类型模型的特定模型类,例如,GPT2LMHeadModel使用AutoModelForCausalLM.from_pretrained('gpt2'). 例如,您可以查看所有推理模型的源代码。MODEL_FOR_CAUSAL_LM_MAPPING MODEL_FOR_SEQUENCE_CLASSIFICATION_MAPPING