padding_idx 在 nn.embeddings() 中做什么

use*_*493 6 python nlp deep-learning recurrent-neural-network pytorch

我正在学习 pytorch,我想知道该padding_idx属性有什么作用torch.nn.Embedding(n1, d1, padding_idx=0)?我到处找,找不到我能得到的东西。你能举个例子来说明这一点吗?

Szy*_*zke 11

padding_idx文档中确实描述得很糟糕。

基本上,它指定在调用期间传递的哪个索引将意味着“零向量”(这在 NLP 中经常使用,以防某些标记丢失)。默认情况下,没有索引意味着“零向量”,如下例所示:

import torch

embedding = torch.nn.Embedding(10, 3)
input = torch.LongTensor([[0, 1, 0, 5]])
print(embedding(input))
Run Code Online (Sandbox Code Playgroud)

会给你:

tensor([[[ 0.1280, -1.1390, -2.5007],
         [ 0.3617, -0.9280,  1.2894],
         [ 0.1280, -1.1390, -2.5007],
         [-1.3135, -0.0229,  0.2451]]], grad_fn=<EmbeddingBackward>)
Run Code Online (Sandbox Code Playgroud)

如果您指定值等于的padding_idx=0每个input位置0(因此第零和第二行)将zero-ed像这样(代码:)embedding = torch.nn.Embedding(10, 3, padding_idx=0)

tensor([[[ 0.0000,  0.0000,  0.0000],
         [-0.4448, -0.2076,  1.1575],
         [ 0.0000,  0.0000,  0.0000],
         [ 1.3602, -0.6299, -0.5809]]], grad_fn=<EmbeddingBackward>
Run Code Online (Sandbox Code Playgroud)

如果您要指定padding_idx=5最后一行将充满零等。


Piy*_*ngh 9

根据docs,每当遇到索引时,padding_idx用嵌入向量 at padding_idx(初始化为零)填充输出。

这意味着无论您有一个等于 的项目padding_idx,该索引处的嵌入层的输出都将为零。

这里有一个例子:让我们说你有1000个字,每一个50维即字的嵌入num_embeddingss=1000embedding_dim=50。然后torch.nn.Embedding像查找表一样工作(尽管查找表是可训练的):

emb_layer = torch.nn.Embedding(1000,50)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
Run Code Online (Sandbox Code Playgroud)

y将是形状为 2x4x50 的张量。我希望这部分对你来说很清楚。

现在,如果我指定padding_idx=2,即

emb_layer = torch.nn.Embedding(1000,50, padding_idx=2)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
Run Code Online (Sandbox Code Playgroud)

然后输出仍然是2x4x50但在(1,2)和(2,3)的50-暗淡矢量将是全零,因为x[1,2]x[2,3]值是2,它等于padding_idx。您可以将其视为查找表中的第 3 个单词(因为查找表将是 0 索引的)未用于训练。