如何检查一个段落是否是R中文本的一部分

How to check if a paragraph is part of a text in R

我有一个文本段落(一个词向量),我想看看它是否是 "part" 一段长文本(一个词向量)。但是,我知道这一段在文中没有出现它的确切形式,而是有细微的变化:一些词可能会漏掉,顺序可能会略有不同,一些词可能会作为括号元素等插入

我目前正在实施解决方案"by hand",例如查看该段落的大部分单词是否在文本中,查看这些单词之间的距离,它们的顺序等... 但是我想知道是否没有内置方法可以做到这一点?

我已经检查了 tm 包,但它似乎并没有这样做...

有什么想法吗?

恐怕您受困于 hand-writing 一种方法,例如grep-ing 一些词组并具有某种匹配阈值。