如何检查一个段落是否是R中文本的一部分
How to check if a paragraph is part of a text in R
我有一个文本段落(一个词向量),我想看看它是否是 "part" 一段长文本(一个词向量)。但是,我知道这一段在文中没有出现它的确切形式,而是有细微的变化:一些词可能会漏掉,顺序可能会略有不同,一些词可能会作为括号元素等插入
我目前正在实施解决方案"by hand",例如查看该段落的大部分单词是否在文本中,查看这些单词之间的距离,它们的顺序等...
但是我想知道是否没有内置方法可以做到这一点?
我已经检查了 tm
包,但它似乎并没有这样做...
有什么想法吗?
恐怕您受困于 hand-writing 一种方法,例如grep
-ing 一些词组并具有某种匹配阈值。
我有一个文本段落(一个词向量),我想看看它是否是 "part" 一段长文本(一个词向量)。但是,我知道这一段在文中没有出现它的确切形式,而是有细微的变化:一些词可能会漏掉,顺序可能会略有不同,一些词可能会作为括号元素等插入
我目前正在实施解决方案"by hand",例如查看该段落的大部分单词是否在文本中,查看这些单词之间的距离,它们的顺序等... 但是我想知道是否没有内置方法可以做到这一点?
我已经检查了 tm
包,但它似乎并没有这样做...
有什么想法吗?
恐怕您受困于 hand-writing 一种方法,例如grep
-ing 一些词组并具有某种匹配阈值。