如何获得未知词的随机word2vec向量?

How to get random word2vec vector for unknow word?

我在train数据上训练word2vec,但是测试数据中有一些词不在train数据中,那么如何生成与原始数据分布或数字范围匹配的词向量?

您可以获取词汇表中 non-frequent 个单词的列表,然后对它们进行平均以获得未知单词的近似单词向量。

假设您的目标未知词是 w 并且它在上下文 c-2 c-1 w c1 c2 中,其中 c-2c-1c1c2 是上下文词。您可以将所有上下文词的嵌入平均值作为未知词的良好近似值。