特征提取自然语言处理
Feature extraction NLP
我正在处理评论数据集。问题是从评论中获取该特定产品的重要(相同功能被评论的次数)正面和负面特征。
例如:some xyz car
正面评价:里程长,好看,宽敞等等
负面:动力差、性能差、软件问题等
事情是提取关于产品最好和最坏的东西!
到目前为止,我一直使用 gensim 的 doc2vec 来查找最上面的肯定句和否定句。结果不是很好,因为它得到了结构相似的句子,而不是它持有的相似的羽毛。
您似乎想要提取有关产品的特征,这些特征在您的评论中最常被提及。这是典型的主题聚类问题。您可以使用 Latent Dirichlet Allocation 模型来进行主题聚类。
这种方法会给你特征,然后你可以运行情绪分析模型来了解对该特征的正面或负面情绪。
碰巧,如果您已经知道这些功能并且想要分组到一些集群中,那么请查看这篇 和问题中提到的论文。
一些关于 "Word Mover's Distance" 计算的文章,为了识别相似 sentences/phrases,使用评论作为他们的数据集,似乎很好地提取了共同的主题和代表性的短语。
参见示例:
"Navigating themes in restaurant reviews with Word Mover’s Distance"
http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/
"Finding similar documents with Word2Vec and WMD"
https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html
我正在处理评论数据集。问题是从评论中获取该特定产品的重要(相同功能被评论的次数)正面和负面特征。
例如:some xyz car
正面评价:里程长,好看,宽敞等等
负面:动力差、性能差、软件问题等
事情是提取关于产品最好和最坏的东西!
到目前为止,我一直使用 gensim 的 doc2vec 来查找最上面的肯定句和否定句。结果不是很好,因为它得到了结构相似的句子,而不是它持有的相似的羽毛。
您似乎想要提取有关产品的特征,这些特征在您的评论中最常被提及。这是典型的主题聚类问题。您可以使用 Latent Dirichlet Allocation 模型来进行主题聚类。
这种方法会给你特征,然后你可以运行情绪分析模型来了解对该特征的正面或负面情绪。
碰巧,如果您已经知道这些功能并且想要分组到一些集群中,那么请查看这篇
一些关于 "Word Mover's Distance" 计算的文章,为了识别相似 sentences/phrases,使用评论作为他们的数据集,似乎很好地提取了共同的主题和代表性的短语。
参见示例:
"Navigating themes in restaurant reviews with Word Mover’s Distance" http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/
"Finding similar documents with Word2Vec and WMD" https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html