找到最接近单词集的单词

Find the closest word to set of words

我需要找到与 model.most_similar()
相反的东西 虽然 most_similar() returns 一组与作为输入给出的最相似的单词,但我需要找到一种 "center" 的单词列表。

gensim 或任何其他工具中是否有可以帮助我的功能?

示例:
给定 {'chimichanga', 'taco', 'burrito'},中心可能是 mexicofood,具体取决于训练模型的语料库

如果您提供一个单词列表作为 most_similar()positive 参数,它将报告最接近其平均值的单词(这似乎是对单词的一种合理解释 'center').

例如:

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])

(我有点怀疑这里的最高结果 sims[0] 会是 'mexico' 或 'food';它很可能是另一个墨西哥食物词。不一定是"more generic"/hypernym 关系可以在 word2vec 词之间或在某些方向上找到......但一些其他嵌入技术,例如 hyperbolic embeddings,可能会提供这种关系。)