NLP Transformers：获得固定句子嵌入向量形状的最佳方法？

Question

NLP Transformers：获得固定句子嵌入向量形状的最佳方法？

hzi*_*oun 7 nlp machine-learning deep-learning word-embedding pytorch

我正在从火炬中心加载语言模型（CamemBERT是基于法语 RoBERTa 的模型）并使用它嵌入一些法语句子：

import torch
camembert = torch.hub.load('pytorch/fairseq', 'camembert.v0')
camembert.eval()  # disable dropout (or leave in train mode to finetune)


def embed(sentence):
   tokens = camembert.encode(sentence)
   # Extract all layer's features (layer 0 is the embedding layer)
   all_layers = camembert.extract_features(tokens, return_all_hiddens=True)
   embeddings = all_layers[0]
   return embeddings

# Here we see that the shape of the embedding vector depends on the number of tokens in the sentence

u = embed(sentence="Bonjour, ça va ?")
u.shape # torch.Size([1, 7, 768])
v = embed(sentence="Salut, comment vas-tu ?")
v.shape # torch.Size([1, 9, 768])

Run Code Online (Sandbox Code Playgroud)

现在想象一下，为了进行一些语义搜索，我想计算cosine distance向量（在我们的例子中为张量）u和v：

cos = torch.nn.CosineSimilarity(dim=1)
cos(u, v) # will throw an error since the shape of `u` is different from the shape of `v`

Run Code Online (Sandbox Code Playgroud)

我在问什么是最好的方法，以便始终为句子获得相同的嵌入形状，而不管其标记的数量如何？

=> 我想到的第一个解决方案是计算mean on axis=1（嵌入句子是嵌入其标记的平均值），因为 axis=0 和 axis=2 始终具有相同的大小：

cos = torch.nn.CosineSimilarity(dim=1)
cos(u.mean(axis=1), v.mean(axis=1)) # works now and gives 0.7269

Run Code Online (Sandbox Code Playgroud)

但是，我担心在计算平均值时会损害句子的嵌入，因为它为每个标记提供相同的权重（可能乘以TF-IDF？）。

=> 第二种解决方案是填充较短的句子。这意味着：

给出一次嵌入的句子列表（而不是逐句嵌入）
查找具有最长标记的句子并将其嵌入，获取其形状 S
对于嵌入的其余句子，然后填充零以获得相同的形状S（句子在其余维度中为 0）

你怎么看？你会使用哪些其他技术，为什么？

提前致谢！

Answer 1

Bra*_*roy 7

这是一个非常普遍的问题，因为没有一个特定的正确答案。

正如您所发现的，当然形状不同，因为每个标记都会得到一个输出（取决于标记器，这些可以是子字单元）。换句话说，您已将所有标记编码到它们自己的向量中。你想要的是一个句子嵌入，有很多方法可以得到它们（没有一个特别正确的答案）。

特别是对于句子分类，当语言模型已经在其上进行训练（CamemBERT 使用<s>）时，我们经常使用特殊分类标记的输出。请注意，根据模型，这可以是第一个（主要是 BERT 和孩子；还有 CamemBERT）或最后一个令牌（CTRL、GPT2、OpenAI、XLNet）。我建议在可用时使用此选项，因为该令牌正是为此目的而训练的。

如果[CLS]（或 <s>类似）令牌不可用，则还有一些其他选项属于术语池化。经常使用最大池化和平均池化。这意味着您采用最大值标记或所有标记的平均值。正如您所说，“危险”是您然后将整个句子的向量值减少到“某个平均值”或“某个最大值”，这可能不太能代表句子。然而，文献表明这也很有效。

正如另一个答案所暗示的那样，您使用其输出的层也可以发挥作用。IIRC 谷歌关于 BERT 的论文表明，他们在连接最后四层时获得了最好的分数。这是更高级的，除非有要求，否则我不会在这里讨论。

我没有fairseq使用的经验，但是使用transformers库，我会写这样的东西（CamemBERT 在 v2.2.0 的库中可用）：

import torch
from transformers import CamembertModel, CamembertTokenizer

text = "Salut, comment vas-tu ?"

tokenizer = CamembertTokenizer.from_pretrained('camembert-base')

# encode() automatically adds the classification token <s>
token_ids = tokenizer.encode(text)
tokens = [tokenizer._convert_id_to_token(idx) for idx in token_ids]
print(tokens)

# unsqueeze token_ids because batch_size=1
token_ids = torch.tensor(token_ids).unsqueeze(0)
print(token_ids)

# load model
model = CamembertModel.from_pretrained('camembert-base')

# forward method returns a tuple (we only want the logits)
# squeeze() because batch_size=1
output = model(token_ids)[0].squeeze()
# only grab output of CLS token (<s>), which is the first token
cls_out = output[0]
print(cls_out.size())

Run Code Online (Sandbox Code Playgroud)

打印输出是（按顺序）标记化后的标记、标记 ID 和最终大小。

['<s>', '?Salut', ',', '?comment', '?vas', '-', 'tu', '??', '</s>']
tensor([[   5, 5340,    7,  404, 4660,   26,  744,  106,    6]])
torch.Size([768])

Run Code Online (Sandbox Code Playgroud)

正如我在帖子中提到的，最有效的方法取决于模型和您的任务。CamemBERT 相对较新，所以我还没有看到用它完成的实际工作。因此，您需要尝试一下，看看什么最适合您的场景。池化可能比使用 CLS 代币效果更好，也可能更差。使用倒数第二层可能效果更好，也可能效果不好。连接最后四层可能效果更好，也可能效果不好。这些都是您在下游任务中测试的内容。 (3认同)

Answer 2

Sam*_* H. 4

Bert-as-service是一个很好的例子，它完全按照您的要求进行操作。

他们使用填充物。但请阅读常见问题解答，了解从哪一层获取如何池化表示：长话短说，取决于任务。

编辑：我并不是说“使用 Bert-as-service”；我的意思是“抄袭 Bert-as-service 所做的事情”。

在您的示例中，您正在获得单词嵌入（因为您正在从中提取层）。以下是 Bert-as-service 的做法。因此，这取决于句子长度，您实际上不应感到惊讶。

然后，您讨论通过词嵌入的均值池来获取句子嵌入。那是……一种方法。但是，使用Bert-as-service 作为如何从 Bert 获取固定长度表示的指南......

问：如何获得固定表示？你做过联营什么的吗？

答：是的，需要池化才能获得句子的固定表示。在默认策略 REDUCE_MEAN 中，我采用句子中所有标记的倒数第二个隐藏层并进行平均池化。

因此，要执行 Bert-as-service 的默认行为，你需要这样做

def embed(sentence):
   tokens = camembert.encode(sentence)
   # Extract all layer's features (layer 0 is the embedding layer)
   all_layers = camembert.extract_features(tokens, return_all_hiddens=True)
   pooling_layer = all_layers[-2]
   embedded = pooling_layer.mean(1)  # 1 is the dimension you want to average ovber
   # note, using numpy to take the mean is bad if you want to stay on GPU
   return embedded

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，6 月前
查看次数：	7110 次
最近记录：	5 年，2 月前