哪种聚类方法是文本分析的标准方法？

Which clustering method is the standard way to go for text analytics?

假设您有很多可能具有（或不具有）相似性的文本句子。现在您想对相似的句子进行聚类，以找到每个聚类的质心。哪种方法是进行这种聚类的首选方法？带有 TF-IDF 的 K-means 听起来很有希望。然而，是否有更复杂或更好的算法？数据结构被标记化并采用单热编码格式。

基本上，您可以使用不同的技术对文本进行聚类。正如您所指出的，带有 TF-IDF 的 K-means 是执行此操作的方法之一。不幸的是，仅使用 tf-idf 将无法 "detect" 语义，也无法在 space 中将语义相似的文本投射到彼此附近。但是，除了使用 tf-idf，您还可以使用词嵌入，例如 word2vec 或 glove - 网上有很多关于它们的信息，只是 google 而已。你听说过主题模型吗？ Latent Dirichlet allocation (LDA) 是一种主题模型，它将每个文档观察为少量主题的混合体，并且每个单词的出现都归因于文档的一个主题（参见维基百科 link）。因此，基本上，使用主题模型，您还可以进行某种分组并将相似的文本（具有相似的主题）分配给组。我建议您阅读主题模型，因为它们在与文本聚类相关的此类问题中更为常见。希望我的回答对您有所帮助。

在我看来，您可以使用 LDA（潜在 Dirichlet 分配，与其他聚类技术相比，它更灵活，因为它具有 Alpha 和 Beta 向量，可以根据文档中每个主题的贡献和文档中的单词进行调整一个主题。如果文档的长度或质量不相似，它会有所帮助。

哪种聚类方法是文本分析的标准方法？

Which clustering method is the standard way to go for text analytics?

python

cluster-analysis

text-mining