小编Sha*_*Liu的帖子

特殊代币有什么特别之处?

“令牌”和“特殊令牌”到底有什么区别?

\n

我了解以下内容:

\n
    \n
  • 什么是典型的代币
  • \n
  • 什么是典型的特殊代币:MASK、UNK、SEP等
  • \n
  • 你什么时候添加一个标记(当你想扩展你的词汇量时)
  • \n
\n

我不明白的是,您想要在什么样的容量下创建新的特殊令牌,我们需要它的任何示例以及何时想要创建除默认特殊令牌之外的特殊令牌?如果一个示例使用特殊令牌,为什么普通令牌不能实现相同的目标?

\n
tokenizer.add_tokens(['[EOT]'], special_tokens=True)\n
Run Code Online (Sandbox Code Playgroud)\n

而且我也不太明白源文档中的以下描述。\n如果我们将 add_special_tokens 设置为 False,这对我们的模型有什么区别?

\n
add_special_tokens (bool, optional, defaults to True) \xe2\x80\x94 Whether or not to encode the sequences with the special tokens relative to their model.\n
Run Code Online (Sandbox Code Playgroud)\n

nlp tokenize bert-language-model huggingface-transformers huggingface-tokenizers

11
推荐指数
1
解决办法
5322
查看次数