我正在使用 Huggingface Transformers 训练用于令牌分类的 XLM-RoBERTa 模型。我已经微调过的模型的最大标记长度是 166。我在训练数据中截断了较长的序列并填充了较短的序列。现在,在推理/预测期间,我想预测所有标记,即使是长度超过 166 的序列。但是,如果我正确阅读文档,溢出的标记就会被丢弃。那是对的吗?我不完全确定“return_overflowing_tokens”和 stride 参数的作用。它们可以用来将太长的序列分成两个或更多个较短的序列吗?
我已经尝试将文本数据分割成句子以具有更小的块,但其中一些仍然超过最大标记长度。如果溢出的令牌能够自动添加到附加序列中,那将是理想的。