创建一个结合其他模型中的词的词向量模型

Creating a wordvector model combining words from other models

我有两个使用 word2vec 算法创建的不同词向量模型。现在我面临的问题是第一个模型中的几句话在第二个模型中不存在。我想从两个不同的词向量模型创建第三个模型,我可以在其中使用两个模型的词向量,而不会丢失词向量的含义和上下文。

我可以这样做吗?如果可以,怎么做?

您可以将仅在一个模型中的词的向量转换为另一个模型的坐标 space,使用其他共享词来学习翻译函数。

在最近的 gensim 版本中有一个工具可以做到这一点——请参阅 TranslationMatrix 工具。 docs/notebooks 目录中包含一个 Jupyter 笔记本演示,可在线查看:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/translation_matrix.ipynb

您可能会采用 更大 模型(或者任何一个被认为 更好 的模型,可能是因为它接受了更多的训练数据),并将其缺失的较少数量的单词翻译成 space。您可以使用尽可能多的常用参考 'anchor' 词。