如何确定集群是关于什么的?
How to determine what a cluster is about?
我使用 Twitter API 检索了推文,需要将推文分为两类。为了进行分组,我使用 doc2vec 将推文表示为数字形式,然后执行 DBSCAN 算法聚类。但是,我如何知道集群属于哪个类别?我的输出只是分配给不同集群的推文。
例如,我需要知道哪些推文表明人们的需求,哪些推文表明人们可以提供帮助 .
如何确定哪个集群有什么类型的推文?
谢谢!
可能这两个集群都不是这两者中的任何一个。
聚类是无监督的。您无法控制它找到的内容。可能是包含 f... 词的推文与不包含 f... 的推文。
如果您想要特定的东西,例如 "needs" 和 "offers",那么您绝对 需要 从标记数据训练监督算法。
我使用 Twitter API 检索了推文,需要将推文分为两类。为了进行分组,我使用 doc2vec 将推文表示为数字形式,然后执行 DBSCAN 算法聚类。但是,我如何知道集群属于哪个类别?我的输出只是分配给不同集群的推文。
例如,我需要知道哪些推文表明人们的需求,哪些推文表明人们可以提供帮助 .
如何确定哪个集群有什么类型的推文? 谢谢!
可能这两个集群都不是这两者中的任何一个。
聚类是无监督的。您无法控制它找到的内容。可能是包含 f... 词的推文与不包含 f... 的推文。
如果您想要特定的东西,例如 "needs" 和 "offers",那么您绝对 需要 从标记数据训练监督算法。