padding_idx 在 nn.embeddings() 中做什么
what does padding_idx do in nn.embeddings()
我正在学习 pytorch 并且
我想知道 padding_idx
属性在 torch.nn.Embedding(n1, d1, padding_idx=0)
中有什么作用?
我到处都找过了,找不到我能得到的东西。
你能举个例子来说明这一点吗?
padding_idx
确实在documentation中描述的相当糟糕。
基本上,它指定在调用期间传递的索引将意味着 "zero vector"(这在 NLP 中经常使用,以防某些标记丢失)。默认情况下,没有索引意味着 "zero vector",如下例所示:
import torch
embedding = torch.nn.Embedding(10, 3)
input = torch.LongTensor([[0, 1, 0, 5]])
print(embedding(input))
会给你:
tensor([[[ 0.1280, -1.1390, -2.5007],
[ 0.3617, -0.9280, 1.2894],
[ 0.1280, -1.1390, -2.5007],
[-1.3135, -0.0229, 0.2451]]], grad_fn=<EmbeddingBackward>)
如果您指定 padding_idx=0
每个值等于 0
的 input
(因此第零行和第二行)将 zero-ed
像这样(代码:embedding = torch.nn.Embedding(10, 3, padding_idx=0)
):
tensor([[[ 0.0000, 0.0000, 0.0000],
[-0.4448, -0.2076, 1.1575],
[ 0.0000, 0.0000, 0.0000],
[ 1.3602, -0.6299, -0.5809]]], grad_fn=<EmbeddingBackward>
如果您要指定 padding_idx=5
最后一行将全为零等
根据 docs,padding_idx
在遇到索引时用 padding_idx
处的嵌入向量(初始化为零)填充输出。
这意味着无论你有一个等于 padding_idx
的项目,该索引处的嵌入层的输出都将全为零。
这是一个例子:
假设您有 1000 个词的词嵌入,每个词有 50 维,即 num_embeddingss=1000
、embedding_dim=50
。然后 torch.nn.Embedding
就像查找 table 一样工作(尽管查找 table 是可训练的):
emb_layer = torch.nn.Embedding(1000,50)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
y
将是一个形状为 2x4x50 的张量。我希望这部分你很清楚。
现在如果我指定padding_idx=2
,即
emb_layer = torch.nn.Embedding(1000,50, padding_idx=2)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
则输出仍为 2x4x50,但 (1,2) 和 (2,3) 处的 50 维向量将全为零,因为 x[1,2]
和 x[2,3]
值为 2,即等于padding_idx
。
您可以将其视为查找 table 中的第 3 个单词(因为查找 table 将以 0 索引)未用于训练。
我正在学习 pytorch 并且
我想知道 padding_idx
属性在 torch.nn.Embedding(n1, d1, padding_idx=0)
中有什么作用?
我到处都找过了,找不到我能得到的东西。
你能举个例子来说明这一点吗?
padding_idx
确实在documentation中描述的相当糟糕。
基本上,它指定在调用期间传递的索引将意味着 "zero vector"(这在 NLP 中经常使用,以防某些标记丢失)。默认情况下,没有索引意味着 "zero vector",如下例所示:
import torch
embedding = torch.nn.Embedding(10, 3)
input = torch.LongTensor([[0, 1, 0, 5]])
print(embedding(input))
会给你:
tensor([[[ 0.1280, -1.1390, -2.5007],
[ 0.3617, -0.9280, 1.2894],
[ 0.1280, -1.1390, -2.5007],
[-1.3135, -0.0229, 0.2451]]], grad_fn=<EmbeddingBackward>)
如果您指定 padding_idx=0
每个值等于 0
的 input
(因此第零行和第二行)将 zero-ed
像这样(代码:embedding = torch.nn.Embedding(10, 3, padding_idx=0)
):
tensor([[[ 0.0000, 0.0000, 0.0000],
[-0.4448, -0.2076, 1.1575],
[ 0.0000, 0.0000, 0.0000],
[ 1.3602, -0.6299, -0.5809]]], grad_fn=<EmbeddingBackward>
如果您要指定 padding_idx=5
最后一行将全为零等
根据 docs,padding_idx
在遇到索引时用 padding_idx
处的嵌入向量(初始化为零)填充输出。
这意味着无论你有一个等于 padding_idx
的项目,该索引处的嵌入层的输出都将全为零。
这是一个例子:
假设您有 1000 个词的词嵌入,每个词有 50 维,即 num_embeddingss=1000
、embedding_dim=50
。然后 torch.nn.Embedding
就像查找 table 一样工作(尽管查找 table 是可训练的):
emb_layer = torch.nn.Embedding(1000,50)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
y
将是一个形状为 2x4x50 的张量。我希望这部分你很清楚。
现在如果我指定padding_idx=2
,即
emb_layer = torch.nn.Embedding(1000,50, padding_idx=2)
x = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
y = emb_layer(x)
则输出仍为 2x4x50,但 (1,2) 和 (2,3) 处的 50 维向量将全为零,因为 x[1,2]
和 x[2,3]
值为 2,即等于padding_idx
。
您可以将其视为查找 table 中的第 3 个单词(因为查找 table 将以 0 索引)未用于训练。