特征提取自然语言处理

Feature extraction NLP

我正在处理评论数据集。问题是从评论中获取该特定产品的重要（相同功能被评论的次数）正面和负面特征。

例如：some xyz car

正面评价：里程长，好看，宽敞等等

负面：动力差、性能差、软件问题等

事情是提取关于产品最好和最坏的东西！

到目前为止，我一直使用 gensim 的 doc2vec 来查找最上面的肯定句和否定句。结果不是很好，因为它得到了结构相似的句子，而不是它持有的相似的羽毛。

您似乎想要提取有关产品的特征，这些特征在您的评论中最常被提及。这是典型的主题聚类问题。您可以使用 Latent Dirichlet Allocation 模型来进行主题聚类。

这种方法会给你特征，然后你可以运行情绪分析模型来了解对该特征的正面或负面情绪。

碰巧，如果您已经知道这些功能并且想要分组到一些集群中，那么请查看这篇和问题中提到的论文。

一些关于 "Word Mover's Distance" 计算的文章，为了识别相似 sentences/phrases，使用评论作为他们的数据集，似乎很好地提取了共同的主题和代表性的短语。

参见示例：