使用 word2vec 使用 rnn 进行单词预测

word prediction with rnn using word2vec

我正在尝试用递归神经网络预测单词。 我正在通过将独立预训练的 word2vec 个单词作为输入来训练网络。

我想知道我是否可以使用目标词的 word2vec 来计算错误成本。 它似乎不起作用,我从未见过这样的例子或论文。 是否可以使用 word2vec 作为计算错误成本的目标值? 如果是这样,我应该使用什么样的成本函数? 如果不是,请从数学上解释原因。

我应该如何设置输入和目标? 现在我正在使用如下架构:

input : word1, word2, word3, target : word4
input : word1, word2, word3, word4, target : word5

也许我可以使用其他选项,例如:

input : word1, word2 target : word2, word3
input : word1, word2, word3, target : word2, word3, word4

哪个更好?或者还有其他选择吗?

如果有任何参考,请告诉我。

通常通过输出 softmax 层进行预测,该层给出词汇表中所有单词的概率。

然而,最近的一篇论文建议将输入词向量与输出词分类器联系起来,并端到端地训练它们。这显着减少了参数的数量。 https://arxiv.org/abs/1611.01462

关于架构,至少对于训练我更喜欢第二个选项,因为第一个丢失了关于也可用于训练的第二个和第三个单词的信息。