难以理解 Roberta 模型中使用的分词器

Question

难以理解 Roberta 模型中使用的分词器

Mr.*_*NLP 6 nlp pytorch bert-language-model huggingface-transformers

from transformers import AutoModel, AutoTokenizer

tokenizer1 = AutoTokenizer.from_pretrained("roberta-base")
tokenizer2 = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "A Titan RTX has 24GB of VRAM"
print(tokenizer1.tokenize(sequence))
print(tokenizer2.tokenize(sequence))

Run Code Online (Sandbox Code Playgroud)

输出：

['A', '?Titan', '?RTX', '?has', '?24', 'GB', '?of', '?VR', 'AM']

['A', 'Titan', 'R', '##T', '##X', 'has', '24', '##GB', 'of', 'V', '##内存']

Bert 模型使用 WordPiece 分词器。WordPiece 词汇表中没有出现的任何单词都会被贪婪地分解为子单词。例如，“RTX”被分解为“R”、“##T”和“##X”，其中## 表示它是一个子标记。

Roberta 使用 BPE 标记器，但我无法理解

a) BPE 分词器是如何工作的？

b) G 在每个代币中代表什么？

Answer 1

den*_*ger 10

这个问题非常广泛，所以我试图给出一个专注于手头主要问题的答案。如果您觉得需要回答其他问题，请一次只针对一个问题打开另一个问题，请参阅 Stackoverflow 的 [help/on-topic] 规则。

本质上，正如您正确识别的那样，BPE 是现代深度网络中任何标记化的核心。我强烈建议您阅读Sennrich 等人的原始 BPE 论文。，其中他们还强调了 BPE 的更多历史。
在任何情况下，任何拥抱脸模型的分词器都是经过预训练的，这意味着它们通常是事先从算法的训练集中生成的。诸如SentencePiece 之类的常见实现也可以更好地理解它，但本质上该任务被构建为一个约束优化问题，您指定k允许的词汇单词的最大数量（约束），然后算法尝试保留尽可能多的词汇字完好无损k。

如果没有足够的单词来覆盖整个词汇表，则会使用较小的单位来近似词汇表，这会导致您在示例中观察到的分裂。RoBERTa 使用了一种称为“字节级 BPE ”的变体，Wang 等人在本研究中可能给出了最好的解释。. 主要的好处是，根据我的理解，它可以减少词汇量，同时保持拆分的质量。

你问题的第二部分更容易解释；BERT 突出显示两个后续标记的合并（与##），而 RoBERTa 的标记生成器用特定的 unicode 字符（在本例中，用点标记\u0120G）突出显示新标记的开始。我能找到的最好的原因是这个线程，它认为它基本上避免了在训练中使用空格。

归档时间：	5 年，10 月前
查看次数：	3614 次
最近记录：	5 年，10 月前