小编Tes*_*a W的帖子

如何处理 Huggingface Transformer 模型中的溢出令牌？

我正在使用 Huggingface Transformers 训练用于令牌分类的 XLM-RoBERTa 模型。我已经微调过的模型的最大标记长度是 166。我在训练数据中截断了较长的序列并填充了较短的序列。现在，在推理/预测期间，我想预测所有标记，即使是长度超过 166 的序列。但是，如果我正确阅读文档，溢出的标记就会被丢弃。那是对的吗？我不完全确定“return_overflowing_tokens”和 stride 参数的作用。它们可以用来将太长的序列分成两个或更多个较短的序列吗？

我已经尝试将文本数据分割成句子以具有更小的块，但其中一些仍然超过最大标记长度。如果溢出的令牌能够自动添加到附加序列中，那将是理想的。

nlp tokenize huggingface-transformers

Tes*_*a W

2023 05-27

3
推荐指数

1
解决办法

1569
查看次数

标签统计

huggingface-transformers ×1

nlp ×1

tokenize ×1

如何处理 Huggingface Transformer 模型中的溢出令牌？

标签 统计

小编Tes_a W的帖子

标签统计