您需要将 EOS 和 BOS 代币放入自动编码器变压器中吗？

Question

您需要将 EOS 和 BOS 代币放入自动编码器变压器中吗？

Dan*_* V. 4 python transformer-model pytorch

我开始了解变压器架构，但有些事情我还无法掌握。

在无解码器的转换器中，例如 BERT，分词器始终包含句子前后的标记 CLS 和 SEP。我知道 CLS 既充当 BOS，又充当提供分类信息的单个隐藏输出，但我有点不明白为什么它需要 SEP 来进行掩码语言建模部分。

我将更多地解释我期望获得的实用程序。就我而言，我想训练一个变压器作为自动编码器，所以目标=输入。不会有解码器，因为我的想法是将原始词汇的维度减少到更少的嵌入维度，然后研究（还不确定如何，但会到达那里）减少的空间以提取有用的信息。

因此，一个例子是：

string_input = "The cat is black" 
tokens_input =  [1,2,3,4]

string_target = "The cat is black"
tokens_output = [1,2,3,4]

Run Code Online (Sandbox Code Playgroud)

现在在通证化的时候，假设我们是逐字通证的，那么加入BOS和EOS会有什么好处呢？

我认为这些只有在使用自注意力解码器时才有用，对吧？因此，因为在这种情况下，对于解码器来说，输出必须右移输入，向量将是：

input_string = "The cat is black EOS"
input_tokens = [1,2,3,4,5]

shifted_output_string = "BOS The cat is black"
shifted_output_tokens = [6,1,2,3,4]

output_string = "The cat is black EOS"
output_token = [1,2,3,4,5]

Run Code Online (Sandbox Code Playgroud)

然而，BERT 没有自注意力解码器，而是一个简单的前馈层。这就是为什么我不确定是否理解这些特殊令牌的用途。

总之，问题是：

即使您没有 Transformer 解码器，您是否始终需要 BOS 和 EOS 代币？
为什么没有 Transformer 解码器的 BERT 需要掩码语言模型部分的 SEP 令牌？

Answer 1

Toa*_*ley 5

首先，了解一下 BERT -\nBERT 词嵌入允许根据使用该词的上下文对同一个词进行多种向量表示。从这个意义上说，BERT 嵌入是上下文相关的。BERT 在计算其嵌入时明确获取句子中每个单词的索引位置。BERT 的输入是一个句子而不是单个单词。这是因为 BERT 需要整个句子的上下文来确定句子中单词的向量。如果你只向 BERT 输入单个词向量，它将完全违背 BERT\xe2\x80\x99 的双向、上下文性质的目的。然后输出是整个输入句子的固定长度向量表示。BERT 提供对词汇表外单词的支持，因为模型在\xe2\x80\x9csubword\xe2\x80\x9d级别（也称为\xe2\x80\x9cword-pieces\xe2\x80\x9d）学习单词。

\n

SEP令牌用于帮助 BERT 区分两个不同的单词序列。这在下一序列预测（NSP）中是必要的。CLS在 NSP 中也是必要的，以便让 BERT 知道第一个序列何时开始。理想情况下，您会使用如下格式：

\n
CLS [序列 1] SEP [序列 2] SEP
\n
请注意，我们没有使用任何BOS或EOS代币。标准 BERT 分词器不包括这些。如果我们运行以下代码，我们可以看到这一点：
\n
from transformers import BertTokenizer\n\ntokenizer = BertTokenizer.from_pretrained('bert-base-uncased')\nprint(tokenizer.eos_token)\nprint(tokenizer.bos_token)\nprint(tokenizer.sep_token)\nprint(tokenizer.cls_token)\n
Run Code Online (Sandbox Code Playgroud)\n
输出：\n无\n无\n[SEP]\n[CLS]
\n
对于屏蔽语言建模（MLM），我们只关心MASK令牌，因为模型的目标仅仅是猜测屏蔽令牌。
\n
BERT 接受了 NSP 和 MLM 的训练，正是这两种训练方法的结合使 BERT 如此有效。
\n
所以回答你的问题 - 你并不“总是需要”EOS 和/或 BOS。事实上，您根本“不需要”它们。但是，如果您正在针对特定的下游任务微调 BERT，并且您打算使用 BOS 和 EOS 代币（具体方式取决于您），那么是的，我想您会将它们作为特殊代币包含在内。但请注意，BERT 的训练并未考虑到这些因素，您可能会看到不可预测/不稳定的结果。
\n

归档时间：	3 年，8 月前
查看次数：	4870 次
最近记录：	2 年，11 月前