如何在两个不同的文本文件(两个文档)中找到语义相似的段落

How can I find semantically similar paragraph in two different text files (two documents)

我发现了很多类似的问题 none 其中回答了我的问题 有人可以帮助我吗。我有两份法律文件需要查找,它们在上下文上相同或具有相同的含义,我的方法应该是什么。无论我看到人们用一两个句子进行比较,我都想到了使用 LSTM 的东西。我想为很多文档做这件事并找出它们中哪些是相似的我无法理解如何开始我的任务

我认为您描述的是 Doc2Vec 背后的目的。您可以训练此模型以生成可用于测量相似性的文档向量。如果你听说过 Word2Vec,这与文档级别的相关。您可能需要调整模型以使其按您希望的方式工作,但这至少是一个好的开始。

Doc2Vec Official Documentation

Doc2Vec Tutorial