如何加载具有词汇限制的 word2vec txt 文件
How to load a word2vec txt file with vocabulary constraint
我有一个标准格式的 word2vec 文件,但它有 200 万个项目。我还有一个词汇文件,其中每一行都是一个单词,该文件大约有 ~800K 行。现在我想从 word2vec 文件加载嵌入,我只想要词汇文件中单词的嵌入。在gensim中有高效的实现吗?
不支持在加载时过滤单词。但是您可以使用 load_word2vec_format()
函数的代码作为您自己的替代加载代码的模型,该代码会跳过不感兴趣的词。
您可以在 KeyedVectors
class...
中查看该函数的代码
...以及一些共享的支持功能...
我有一个标准格式的 word2vec 文件,但它有 200 万个项目。我还有一个词汇文件,其中每一行都是一个单词,该文件大约有 ~800K 行。现在我想从 word2vec 文件加载嵌入,我只想要词汇文件中单词的嵌入。在gensim中有高效的实现吗?
不支持在加载时过滤单词。但是您可以使用 load_word2vec_format()
函数的代码作为您自己的替代加载代码的模型,该代码会跳过不感兴趣的词。
您可以在 KeyedVectors
class...
...以及一些共享的支持功能...