对于序列到序列的 Transformer 模型,decoder_input_ids 应该是什么?

Mar*_*ski 5 nlp huggingface-transformers

我使用 HuggingFace 的 Transformers 库来构建基于 BART 和 T5的序列到序列模型。我仔细阅读了文档和研究论文,但我找不到解码器 (decoder_input_ids) 的输入应该是序列到序列任务的内容。

两种模型(BART 和 T5)的解码器输入应该与 lm_labels(LM 头的输出)相同还是应该与 input_ids(编码器的输入)相同?

小智 1

Decoder_input_ids(可选)对应标签,标签是提供decoder_input_ids的首选方式。 https://huggingface.co/transformers/glossary.html#decoder-input-ids

这是因为在内部如果decoder_input_ids为None,它们将通过将标签向右移动而派生,因此您不必自己进行移动。