NLP:有效比较和识别文本之间趋势的方法

NLP: Way to efficiently compare and identify trends between text

是否有算法或方法可以评估文本项之间的共同 trends/themes?

例如,假设有四个数据点(文本条目):

基于这四个条目,第一个是异常值,与其余条目无关,但其他三个提到 "physics test" 是多么容易(更一般地说,其他三个表达了对"physics test").

有没有方法可以提取相关句子之间的共同线索?这些句子完全是开放式的,并不局限于简单地表达对某个对象的情感——它们可以谈论任何事情。

我知道这是一个相当广泛的问题,但我想我会问这个问题,看看人们是否知道现有的解决方案或人们过去解决这个问题的方式。

一种可能的解决方案是 - 首先生成句子表示 (Sent2Vec),然后比较这些表示。

有很多方法可以生成英文句子的句子嵌入。一种流行的方法是 skip-though vectors。只需将句子转换为向量,然后使用余弦相似度来比较句子。

您还可以使用这些句子嵌入来训练神经网络来完成您的目标任务。