Gensim:如何从文本文件加载预计算的词向量
Gensim: how to load precomputed word vectors from text file
我有一个文本文件,其中包含以下格式(示例)的预计算词向量:
word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’
每行每个单词(用 297 个额外的浮点数代替 ...
)。我正在尝试使用 Gensim 将它们作为 KeyedVectors 加载,因为我最终想计算余弦相似度,找到最相似的词等。不幸的是,我之前和从文档中都没有使用过 Gensim,我不太清楚该怎么做这个。我尝试了以下发现 here:
word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)
然而,这会产生以下错误:
ValueError: invalid literal for int() with base 10: 'the'
'the' 是文本文件中的第一个词,所以我怀疑加载函数期望存在一些不存在的东西。但是我找不到关于应该在那里的任何信息。我将非常感谢指向此类信息或任何其他解决我问题的方法。谢谢!
您可以查看here Word2Vec 格式的示例。
第一行应该包含文件中的单词数,然后是向量的维度。这可能就是您的脚本返回错误的原因。
在你的例子中:
1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283
我有一个文本文件,其中包含以下格式(示例)的预计算词向量:
word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’
每行每个单词(用 297 个额外的浮点数代替 ...
)。我正在尝试使用 Gensim 将它们作为 KeyedVectors 加载,因为我最终想计算余弦相似度,找到最相似的词等。不幸的是,我之前和从文档中都没有使用过 Gensim,我不太清楚该怎么做这个。我尝试了以下发现 here:
word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)
然而,这会产生以下错误:
ValueError: invalid literal for int() with base 10: 'the'
'the' 是文本文件中的第一个词,所以我怀疑加载函数期望存在一些不存在的东西。但是我找不到关于应该在那里的任何信息。我将非常感谢指向此类信息或任何其他解决我问题的方法。谢谢!
您可以查看here Word2Vec 格式的示例。 第一行应该包含文件中的单词数,然后是向量的维度。这可能就是您的脚本返回错误的原因。
在你的例子中:
1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283