Gensim：如何从文本文件加载预计算的词向量

Question

我有一个文本文件，其中包含以下格式（示例）的预计算词向量：

word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’

每行每个单词（用 297 个额外的浮点数代替 ...）。我正在尝试使用 Gensim 将它们作为 KeyedVectors 加载，因为我最终想计算余弦相似度，找到最相似的词等。不幸的是，我之前和从文档中都没有使用过 Gensim，我不太清楚该怎么做这个。我尝试了以下发现 here:

word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)

然而，这会产生以下错误：

ValueError: invalid literal for int() with base 10: 'the'

'the' 是文本文件中的第一个词，所以我怀疑加载函数期望存在一些不存在的东西。但是我找不到关于应该在那里的任何信息。我将非常感谢指向此类信息或任何其他解决我问题的方法。谢谢！

Answer 1

您可以查看here Word2Vec 格式的示例。第一行应该包含文件中的单词数，然后是向量的维度。这可能就是您的脚本返回错误的原因。

在你的例子中：

1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283

Gensim: how to load precomputed word vectors from text file