文档与 doc2vec 的相似性

Document similarity with doc2vec

python
nlp
gensim
doc2vec

对于 github 中的这个 Gensim 示例，https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb 它在末尾提供了示例来查找短语或关键字的相似性，例如 'lady gaga' 或 'machine learning'。但是，我希望在纯文本文件中找到与实际文档的相似性，可以这样做吗？我该怎么做？假设文本文件以 txt 格式位于我的本地笔记本电脑上。

将查询文档标记为与训练数据相同。将这些标记传递给 Doc2Vec 模型的 infer_vector() 方法以获得查询文档的向量。将该向量传递给 most_similar() 以获得与该向量相似的已知文档的排名列表。

在 gensim 随附的另一个演示笔记本中，单元格 10 和向前有使用 infer_vector() 的示例：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

文档与 doc2vec 的相似性

Document similarity with doc2vec

python

nlp

gensim

doc2vec