文档与 doc2vec 的相似性

Document similarity with doc2vec

对于 github 中的这个 Gensim 示例,https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb 它在末尾提供了示例来查找短语或关键字的相似性,例如 'lady gaga' 或 'machine learning'。但是,我希望在纯文本文件中找到与实际文档的相似性,可以这样做吗?我该怎么做?假设文本文件以 txt 格式位于我的本地笔记本电脑上。

将查询文档标记为与训练数据相同。将这些标记传递给 Doc2Vec 模型的 infer_vector() 方法以获得查询文档的向量。将该向量传递给 most_similar() 以获得与该向量相似的已知文档的排名列表。

gensim 随附的另一个演示笔记本中,单元格 10 和向前有使用 infer_vector() 的示例:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb