使用 word2vec 使用 rnn 进行单词预测
word prediction with rnn using word2vec
我正在尝试用递归神经网络预测单词。
我正在通过将独立预训练的 word2vec
个单词作为输入来训练网络。
我想知道我是否可以使用目标词的 word2vec
来计算错误成本。
它似乎不起作用,我从未见过这样的例子或论文。
是否可以使用 word2vec 作为计算错误成本的目标值?
如果是这样,我应该使用什么样的成本函数?
如果不是,请从数学上解释原因。
我应该如何设置输入和目标?
现在我正在使用如下架构:
input : word1, word2, word3, target : word4
input : word1, word2, word3, word4, target : word5
也许我可以使用其他选项,例如:
input : word1, word2 target : word2, word3
input : word1, word2, word3, target : word2, word3, word4
哪个更好?或者还有其他选择吗?
如果有任何参考,请告诉我。
通常通过输出 softmax 层进行预测,该层给出词汇表中所有单词的概率。
然而,最近的一篇论文建议将输入词向量与输出词分类器联系起来,并端到端地训练它们。这显着减少了参数的数量。 https://arxiv.org/abs/1611.01462
关于架构,至少对于训练我更喜欢第二个选项,因为第一个丢失了关于也可用于训练的第二个和第三个单词的信息。
我正在尝试用递归神经网络预测单词。
我正在通过将独立预训练的 word2vec
个单词作为输入来训练网络。
我想知道我是否可以使用目标词的 word2vec
来计算错误成本。
它似乎不起作用,我从未见过这样的例子或论文。
是否可以使用 word2vec 作为计算错误成本的目标值?
如果是这样,我应该使用什么样的成本函数?
如果不是,请从数学上解释原因。
我应该如何设置输入和目标? 现在我正在使用如下架构:
input : word1, word2, word3, target : word4
input : word1, word2, word3, word4, target : word5
也许我可以使用其他选项,例如:
input : word1, word2 target : word2, word3
input : word1, word2, word3, target : word2, word3, word4
哪个更好?或者还有其他选择吗?
如果有任何参考,请告诉我。
通常通过输出 softmax 层进行预测,该层给出词汇表中所有单词的概率。
然而,最近的一篇论文建议将输入词向量与输出词分类器联系起来,并端到端地训练它们。这显着减少了参数的数量。 https://arxiv.org/abs/1611.01462
关于架构,至少对于训练我更喜欢第二个选项,因为第一个丢失了关于也可用于训练的第二个和第三个单词的信息。