padding_idx 在 nn.embeddings() 中做什么

Question

我正在学习 pytorch 并且我想知道 padding_idx 属性在 torch.nn.Embedding(n1, d1, padding_idx=0) 中有什么作用？我到处都找过了，找不到我能得到的东西。你能举个例子来说明这一点吗？

Answer 1

padding_idx确实在documentation中描述的相当糟糕。

基本上，它指定在调用期间传递的索引将意味着 "zero vector"（这在 NLP 中经常使用，以防某些标记丢失）。默认情况下，没有索引意味着 "zero vector"，如下例所示：

import torch

embedding = torch.nn.Embedding(10, 3)
input = torch.LongTensor([[0, 1, 0, 5]])
print(embedding(input))

会给你：

tensor([[[ 0.1280, -1.1390, -2.5007],
         [ 0.3617, -0.9280,  1.2894],
         [ 0.1280, -1.1390, -2.5007],
         [-1.3135, -0.0229,  0.2451]]], grad_fn=<EmbeddingBackward>)

如果您指定 padding_idx=0 每个值等于 0 的 input （因此第零行和第二行）将 zero-ed 像这样（代码：embedding = torch.nn.Embedding(10, 3, padding_idx=0)):

tensor([[[ 0.0000,  0.0000,  0.0000],
         [-0.4448, -0.2076,  1.1575],
         [ 0.0000,  0.0000,  0.0000],
         [ 1.3602, -0.6299, -0.5809]]], grad_fn=<EmbeddingBackward>

如果您要指定 padding_idx=5 最后一行将全为零等

Answer 2

根据 docs，padding_idx 在遇到索引时用 padding_idx 处的嵌入向量（初始化为零）填充输出。

这意味着无论你有一个等于 padding_idx 的项目，该索引处的嵌入层的输出都将全为零。

这是一个例子：假设您有 1000 个词的词嵌入，每个词有 50 维，即 num_embeddingss=1000、embedding_dim=50。然后 torch.nn.Embedding 就像查找 table 一样工作（尽管查找 table 是可训练的）：

emb_layer = torch.nn.Embedding(1000,50)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)

y 将是一个形状为 2x4x50 的张量。我希望这部分你很清楚。

现在如果我指定padding_idx=2，即

emb_layer = torch.nn.Embedding(1000,50, padding_idx=2)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)

则输出仍为 2x4x50，但 (1,2) 和 (2,3) 处的 50 维向量将全为零，因为 x[1,2] 和 x[2,3] 值为 2，即等于padding_idx。您可以将其视为查找 table 中的第 3 个单词（因为查找 table 将以 0 索引）未用于训练。

padding_idx 在 nn.embeddings() 中做什么

what does padding_idx do in nn.embeddings()

python

nlp

deep-learning

recurrent-neural-network

pytorch