使用 word2vec 使用 rnn 进行单词预测

Question

我正在尝试用递归神经网络预测单词。我正在通过将独立预训练的 word2vec 个单词作为输入来训练网络。

我想知道我是否可以使用目标词的 word2vec 来计算错误成本。它似乎不起作用，我从未见过这样的例子或论文。是否可以使用 word2vec 作为计算错误成本的目标值？如果是这样，我应该使用什么样的成本函数？如果不是，请从数学上解释原因。

我应该如何设置输入和目标？现在我正在使用如下架构：

input : word1, word2, word3, target : word4
input : word1, word2, word3, word4, target : word5

也许我可以使用其他选项，例如：

input : word1, word2 target : word2, word3
input : word1, word2, word3, target : word2, word3, word4

哪个更好？或者还有其他选择吗？

如果有任何参考，请告诉我。

Answer 1

通常通过输出 softmax 层进行预测，该层给出词汇表中所有单词的概率。

然而，最近的一篇论文建议将输入词向量与输出词分类器联系起来，并端到端地训练它们。这显着减少了参数的数量。 https://arxiv.org/abs/1611.01462

关于架构，至少对于训练我更喜欢第二个选项，因为第一个丢失了关于也可用于训练的第二个和第三个单词的信息。

word prediction with rnn using word2vec