NLP:有效比较和识别文本之间趋势的方法
NLP: Way to efficiently compare and identify trends between text
是否有算法或方法可以评估文本项之间的共同 trends/themes?
例如,假设有四个数据点(文本条目):
- "I found school very stressful today"
- "The test in physics was pretty easy."
- "My physics test wasn't challenging at all"
- "Everyone left early because the physics test was straight-forward and we finished it early."
基于这四个条目,第一个是异常值,与其余条目无关,但其他三个提到 "physics test" 是多么容易(更一般地说,其他三个表达了对"physics test").
有没有方法可以提取相关句子之间的共同线索?这些句子完全是开放式的,并不局限于简单地表达对某个对象的情感——它们可以谈论任何事情。
我知道这是一个相当广泛的问题,但我想我会问这个问题,看看人们是否知道现有的解决方案或人们过去解决这个问题的方式。
一种可能的解决方案是 - 首先生成句子表示 (Sent2Vec),然后比较这些表示。
有很多方法可以生成英文句子的句子嵌入。一种流行的方法是 skip-though vectors。只需将句子转换为向量,然后使用余弦相似度来比较句子。
您还可以使用这些句子嵌入来训练神经网络来完成您的目标任务。
是否有算法或方法可以评估文本项之间的共同 trends/themes?
例如,假设有四个数据点(文本条目):
- "I found school very stressful today"
- "The test in physics was pretty easy."
- "My physics test wasn't challenging at all"
- "Everyone left early because the physics test was straight-forward and we finished it early."
基于这四个条目,第一个是异常值,与其余条目无关,但其他三个提到 "physics test" 是多么容易(更一般地说,其他三个表达了对"physics test").
有没有方法可以提取相关句子之间的共同线索?这些句子完全是开放式的,并不局限于简单地表达对某个对象的情感——它们可以谈论任何事情。
我知道这是一个相当广泛的问题,但我想我会问这个问题,看看人们是否知道现有的解决方案或人们过去解决这个问题的方式。
一种可能的解决方案是 - 首先生成句子表示 (Sent2Vec),然后比较这些表示。
有很多方法可以生成英文句子的句子嵌入。一种流行的方法是 skip-though vectors。只需将句子转换为向量,然后使用余弦相似度来比较句子。
您还可以使用这些句子嵌入来训练神经网络来完成您的目标任务。