来自 HuggingFace 的 BertWordPieceTokenizer 与 BertTokenizer

Question

来自 HuggingFace 的 BertWordPieceTokenizer 与 BertTokenizer

Hop*_*ing 3 nlp bert-language-model huggingface-transformers huggingface-tokenizers

我有以下代码片段并试图了解 BertWordPieceTokenizer 和 BertTokenizer 之间的区别。

BertWordPieceTokenizer（基于 Rust）

from tokenizers import BertWordPieceTokenizer

sequence = "Hello, y'all! How are you Tokenizer  ?"
tokenizer = BertWordPieceTokenizer("bert-base-uncased-vocab.txt")
tokenized_sequence = tokenizer.encode(sequence)
print(tokenized_sequence)
>>>Encoding(num_tokens=15, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

print(tokenized_sequence.tokens)
>>>['[CLS]', 'hello', ',', 'y', "'", 'all', '!', 'how', 'are', 'you', 'token', '##izer', '[UNK]', '?', '[SEP]']

Run Code Online (Sandbox Code Playgroud)

伯特令牌生成器

from transformers import BertTokenizer
tokenizer = BertTokenizer("bert-base-cased-vocab.txt")
tokenized_sequence = tokenizer.encode(sequence)
print(tokenized_sequence)
#Output: [19082, 117, 194, 112, 1155, 106, 1293, 1132, 1128, 22559, 17260, 100, 136]

Run Code Online (Sandbox Code Playgroud)

为什么编码在两者中的工作方式不同？在 BertWordPieceTokenizer 中，它给出了 Encoding 对象，而在 BertTokenizer 中，它给出了词汇的 id。
BertWordPieceTokenizer 和 BertTokenizer 从根本上有什么区别，因为据我了解 BertTokenizer 也在幕后使用 WordPiece。

谢谢

Answer 1

cro*_*oik 8

当您使用相同的词汇时，它们应该产生相同的输出（在您的示例中，您使用了 bert-base-uncased-vocab.txt 和 bert-base-cased-vocab.txt）。主要区别在于tokenizers包中的 tokenizers 比Transformer 中的 tokenizers 更快，因为它们是在 Rust 中实现的。

当您修改示例时，您将看到它们生成相同的ids和其他属性（编码对象），而转换器标记器仅生成了以下列表ids：

from tokenizers import BertWordPieceTokenizer

sequence = "Hello, y'all! How are you Tokenizer  ?"
tokenizerBW = BertWordPieceTokenizer("/content/bert-base-uncased-vocab.txt")
tokenized_sequenceBW = tokenizerBW.encode(sequence)
print(tokenized_sequenceBW)
print(type(tokenized_sequenceBW))
print(tokenized_sequenceBW.ids)

Run Code Online (Sandbox Code Playgroud)

输出：

Encoding(num_tokens=15, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])
<class 'Encoding'>
[101, 7592, 1010, 1061, 1005, 2035, 999, 2129, 2024, 2017, 19204, 17629, 100, 1029, 102]

Run Code Online (Sandbox Code Playgroud)

Encoding(num_tokens=15, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])
<class 'Encoding'>
[101, 7592, 1010, 1061, 1005, 2035, 999, 2129, 2024, 2017, 19204, 17629, 100, 1029, 102]

Run Code Online (Sandbox Code Playgroud)

输出：

[101, 7592, 1010, 1061, 1005, 2035, 999, 2129, 2024, 2017, 19204, 17629, 100, 1029, 102]
<class 'list'>

Run Code Online (Sandbox Code Playgroud)

您在评论中提到您的问题更多是关于为什么产生的输出不同。据我所知，这是开发人员做出的设计决定，没有具体原因。也不是来自tokenizers的 BertWordPieceTokenizer 是来自Transformers的 BertTokenizer 的就地替代品。他们仍然使用包装器使其与转换器标记器 API兼容。有一个BertTokenizerFast类，它有一个“清理”方法_convert_encoding使 BertWordPieceTokenizer 完全兼容。因此，您必须将上面的 BertTokenizer 示例与以下内容进行比较：

from transformers import BertTokenizer

tokenizerBT = BertTokenizer("/content/bert-base-uncased-vocab.txt")
tokenized_sequenceBT = tokenizerBT.encode(sequence)
print(tokenized_sequenceBT)
print(type(tokenized_sequenceBT))

Run Code Online (Sandbox Code Playgroud)

输出：

[101, 7592, 1010, 1061, 1005, 2035, 999, 2129, 2024, 2017, 19204, 17629, 100, 1029, 102]
<class 'list'>

Run Code Online (Sandbox Code Playgroud)

从我的角度来看，他们已经独立于变压器库构建了标记器库，目的是快速和有用。

归档时间：	5 年，6 月前
查看次数：	4382 次
最近记录：	5 年，6 月前