小编Ber*_*abi的帖子

为什么 Huggingface t5 分词器会忽略一些空格？

我正在使用 T5 模型和分词器来执行下游任务。我想向标记生成器添加某些空格，例如行结尾(\\t)和制表符(\\t)。添加这些标记可以工作，但不知何故标记器总是忽略第二个空格。因此，它将序列标记\xe2\x80\x9c\\n\\n\xe2\x80\x9d为单行结尾，并将序列"\\n\\n\\n\\n"标记为两个行结尾，依此类推。请参阅下文进行重现。

from transformers import T5Tokenizer\ntokenizer = T5Tokenizer.from_pretrained("t5-large")\ntokenizer.add_tokens(["\\n"])\n\ntokenizer.encode("\\n") # returns [32100, 1] as expected\ntokenizer.encode("\\n\\n") # returns [32100, 1] but expected would be [32100, 32100, 1]\ntokenizer.encode("\\n\\n\\n\\n") # returns [32100, 32100, 1] but expected would be [32100, 32100, 32100, 32100, 1]\n

Run Code Online (Sandbox Code Playgroud)\n

这种行为背后的原因是什么？这是一个错误还是与分词器工作原理相关的东西？我注意到这只发生在添加的空格上，而不会发生在其他字符上。

有没有办法防止分词器忽略重复的空格？

huggingface-transformers huggingface-tokenizers sentencepiece

Ber*_*abi

2023 07-13

7
推荐指数

1
解决办法

2542
查看次数