找到最接近单词集的单词

Question

我需要找到与 model.most_similar()
相反的东西虽然 most_similar() returns 一组与作为输入给出的最相似的单词，但我需要找到一种 "center" 的单词列表。

gensim 或任何其他工具中是否有可以帮助我的功能？

示例：
给定 {'chimichanga', 'taco', 'burrito'}，中心可能是 mexico 或 food，具体取决于训练模型的语料库

Answer 1

如果您提供一个单词列表作为 most_similar() 的 positive 参数，它将报告最接近其平均值的单词（这似乎是对单词的一种合理解释 'center').

例如：

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])

（我有点怀疑这里的最高结果 sims[0] 会是 'mexico' 或 'food'；它很可能是另一个墨西哥食物词。不一定是"more generic"/hypernym 关系可以在 word2vec 词之间或在某些方向上找到......但一些其他嵌入技术，例如 hyperbolic embeddings，可能会提供这种关系。）

找到最接近单词集的单词

Find the closest word to set of words

python

nlp

gensim

word2vec