padding_idx 在 nn.embeddings() 中做什么

Question

padding_idx 在 nn.embeddings() 中做什么

use*_*493 6 python nlp deep-learning recurrent-neural-network pytorch

我正在学习 pytorch，我想知道该padding_idx属性有什么作用torch.nn.Embedding(n1, d1, padding_idx=0)？我到处找，找不到我能得到的东西。你能举个例子来说明这一点吗？

Answer 1

padding_idx文档中确实描述得很糟糕。

基本上，它指定在调用期间传递的哪个索引将意味着“零向量”（这在 NLP 中经常使用，以防某些标记丢失）。默认情况下，没有索引意味着“零向量”，如下例所示：

import torch

embedding = torch.nn.Embedding(10, 3)
input = torch.LongTensor([[0, 1, 0, 5]])
print(embedding(input))

Run Code Online (Sandbox Code Playgroud)

会给你：

tensor([[[ 0.1280, -1.1390, -2.5007],
         [ 0.3617, -0.9280,  1.2894],
         [ 0.1280, -1.1390, -2.5007],
         [-1.3135, -0.0229,  0.2451]]], grad_fn=<EmbeddingBackward>)

Run Code Online (Sandbox Code Playgroud)

如果您指定值等于的padding_idx=0每个input位置0（因此第零和第二行）将zero-ed像这样（代码：）embedding = torch.nn.Embedding(10, 3, padding_idx=0)：

tensor([[[ 0.0000,  0.0000,  0.0000],
         [-0.4448, -0.2076,  1.1575],
         [ 0.0000,  0.0000,  0.0000],
         [ 1.3602, -0.6299, -0.5809]]], grad_fn=<EmbeddingBackward>

Run Code Online (Sandbox Code Playgroud)

如果您要指定padding_idx=5最后一行将充满零等。

Answer 2

Piy*_*ngh 9

根据docs，每当遇到索引时，padding_idx用嵌入向量 at padding_idx（初始化为零）填充输出。

这意味着无论您有一个等于的项目padding_idx，该索引处的嵌入层的输出都将为零。

这里有一个例子：让我们说你有1000个字，每一个50维即字的嵌入num_embeddingss=1000，embedding_dim=50。然后torch.nn.Embedding像查找表一样工作（尽管查找表是可训练的）：

emb_layer = torch.nn.Embedding(1000,50)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)

Run Code Online (Sandbox Code Playgroud)

y将是形状为 2x4x50 的张量。我希望这部分对你来说很清楚。

现在，如果我指定padding_idx=2，即

emb_layer = torch.nn.Embedding(1000,50, padding_idx=2)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)

Run Code Online (Sandbox Code Playgroud)

然后输出仍然是2x4x50但在（1,2）和（2,3）的50-暗淡矢量将是全零，因为x[1,2]和x[2,3]值是2，它等于padding_idx。您可以将其视为查找表中的第 3 个单词（因为查找表将是 0 索引的）未用于训练。

归档时间：	5 年，7 月前
查看次数：	5140 次
最近记录：	5 年，7 月前