NLP：有效比较和识别文本之间趋势的方法

NLP: Way to efficiently compare and identify trends between text

是否有算法或方法可以评估文本项之间的共同 trends/themes？

例如，假设有四个数据点（文本条目）：

"I found school very stressful today"
"The test in physics was pretty easy."
"My physics test wasn't challenging at all"
"Everyone left early because the physics test was straight-forward and we finished it early."

基于这四个条目，第一个是异常值，与其余条目无关，但其他三个提到 "physics test" 是多么容易（更一般地说，其他三个表达了对"physics test").

有没有方法可以提取相关句子之间的共同线索？这些句子完全是开放式的，并不局限于简单地表达对某个对象的情感——它们可以谈论任何事情。

我知道这是一个相当广泛的问题，但我想我会问这个问题，看看人们是否知道现有的解决方案或人们过去解决这个问题的方式。

一种可能的解决方案是 - 首先生成句子表示 (Sent2Vec)，然后比较这些表示。

有很多方法可以生成英文句子的句子嵌入。一种流行的方法是 skip-though vectors。只需将句子转换为向量，然后使用余弦相似度来比较句子。

您还可以使用这些句子嵌入来训练神经网络来完成您的目标任务。