如何确定集群是关于什么的?

How to determine what a cluster is about?

我使用 Twitter API 检索了推文,需要将推文分为两类。为了进行分组,我使用 doc2vec 将推文表示为数字形式,然后执行 DBSCAN 算法聚类。但是,我如何知道集群属于哪个类别?我的输出只是分配给不同集群的推文。

例如,我需要知道哪些推文表明人们的需求,哪些推文表明人们可以提供帮助 .

如何确定哪个集群有什么类型的推文? 谢谢!

可能这两个集群都不是这两者中的任何一个。

聚类是无监督的。您无法控制它找到的内容。可能是包含 f... 词的推文与不包含 f... 的推文。

如果您想要特定的东西,例如 "needs" 和 "offers",那么您绝对 需要 从标记数据训练监督算法。