哪种聚类方法是文本分析的标准方法?

Which clustering method is the standard way to go for text analytics?

假设您有很多可能具有(或不具有)相似性的文本句子。现在您想对相似的句子进行聚类,以找到每个聚类的质心。哪种方法是进行这种聚类的首选方法?带有 TF-IDF 的 K-means 听起来很有希望。然而,是否有更复杂或更好的算法?数据结构被标记化并采用单热编码格式。

基本上,您可以使用不同的技术对文本进行聚类。正如您所指出的,带有 TF-IDF 的 K-means 是执行此操作的方法之一。不幸的是,仅使用 tf-idf 将无法 "detect" 语义,也无法在 space 中将语义相似的文本投射到彼此附近。但是,除了使用 tf-idf,您还可以使用词嵌入,例如 word2vec 或 glove - 网上有很多关于它们的信息,只是 google 而已。你听说过主题模型吗? Latent Dirichlet allocation (LDA) 是一种主题模型,它将每个文档观察为少量主题的混合体,并且每个单词的出现都归因于文档的一个主题(参见维基百科 link)。因此,基本上,使用主题模型,您还可以进行某种分组并将相似的文本(具有相似的主题)分配给组。我建议您阅读主题模型,因为它们在与文本聚类相关的此类问题中更为常见。 希望我的回答对您有所帮助。

在我看来,您可以使用 LDA(潜在 Dirichlet 分配,与其他聚类技术相比,它更灵活,因为它具有 Alpha 和 Beta 向量,可以根据文档中每个主题的贡献和文档中的单词进行调整一个主题。如果文档的长度或质量不相似,它会有所帮助。