基于标签的重叠聚类(软聚类)
Tag based clustering with overlaps (soft clustering)
我正在寻找一种基于主题标签对 Twitter 提要进行聚类的算法,其中不会将主题标签严格分配给一个集群。
非常简单的例子:
- 饲料 1:#food #vegetable
- 饲料 2:#food #vegetable
- 饲料 3:#food #fruit
- 饲料 4:#food #fruit
我想得到的结果是:
- 第 1 组:#food #vegetable
- 第 2 组:#food #fruit
当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。
我在 scikit-learn 中尝试使用相似矩阵的各种方法(k 均值、谱聚类、凝聚聚类),例如:
#food | #vegetable | #fruit |
#food 1 | 1/2 | 1/2 |
#vegetable 1/2 | 1 | 0 |
#fruit 1/2 | 0 | 1 |
所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。
- 你可以认为你的hashtags是一个描述,运行它上面是一个LDA算法。它将创建包含多个主题标签的主题,并且每个主题标签都可以在多个主题中找到。
- 您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点,当主题标签出现在同一提要中时,边缘会增加。从此图中,您可以使用允许社区重叠的多个社区检测算法(例如 k-click)
我正在寻找一种基于主题标签对 Twitter 提要进行聚类的算法,其中不会将主题标签严格分配给一个集群。
非常简单的例子:
- 饲料 1:#food #vegetable
- 饲料 2:#food #vegetable
- 饲料 3:#food #fruit
- 饲料 4:#food #fruit
我想得到的结果是:
- 第 1 组:#food #vegetable
- 第 2 组:#food #fruit
当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。
我在 scikit-learn 中尝试使用相似矩阵的各种方法(k 均值、谱聚类、凝聚聚类),例如:
#food | #vegetable | #fruit |
#food 1 | 1/2 | 1/2 |
#vegetable 1/2 | 1 | 0 |
#fruit 1/2 | 0 | 1 |
所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。
- 你可以认为你的hashtags是一个描述,运行它上面是一个LDA算法。它将创建包含多个主题标签的主题,并且每个主题标签都可以在多个主题中找到。
- 您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点,当主题标签出现在同一提要中时,边缘会增加。从此图中,您可以使用允许社区重叠的多个社区检测算法(例如 k-click)