创建一个结合其他模型中的词的词向量模型

Creating a wordvector model combining words from other models

我有两个使用 word2vec 算法创建的不同词向量模型。现在我面临的问题是第一个模型中的几句话在第二个模型中不存在。我想从两个不同的词向量模型创建第三个模型，我可以在其中使用两个模型的词向量，而不会丢失词向量的含义和上下文。

我可以这样做吗？如果可以，怎么做？

您可以将仅在一个模型中的词的向量转换为另一个模型的坐标 space，使用其他共享词来学习翻译函数。

在最近的 gensim 版本中有一个工具可以做到这一点——请参阅 TranslationMatrix 工具。 docs/notebooks 目录中包含一个 Jupyter 笔记本演示，可在线查看：

您可能会采用更大模型（或者任何一个被认为更好的模型，可能是因为它接受了更多的训练数据），并将其缺失的较少数量的单词翻译成 space。您可以使用尽可能多的常用参考 'anchor' 词。