如何加载具有词汇限制的 word2vec txt 文件

How to load a word2vec txt file with vocabulary constraint

我有一个标准格式的 word2vec 文件,但它有 200 万个项目。我还有一个词汇文件,其中每一行都是一个单词,该文件大约有 ~800K 行。现在我想从 word2vec 文件加载嵌入,我只想要词汇文件中单词的嵌入。在gensim中有高效的实现吗?

不支持在加载时过滤单词。但是您可以使用 load_word2vec_format() 函数的代码作为您自己的替代加载代码的模型,该代码会跳过不感兴趣的词。

您可以在 KeyedVectors class...

中查看该函数的代码

https://github.com/RaRe-Technologies/gensim/blob/ff107d6c5cb50d9ab99999cb898ff0aceb192592/gensim/models/keyedvectors.py#L1434

...以及一些共享的支持功能...

https://github.com/RaRe-Technologies/gensim/blob/ff107d6c5cb50d9ab99999cb898ff0aceb192592/gensim/models/utils_any2vec.py#L294