基于标签的重叠聚类（软聚类）

Question

我正在寻找一种基于主题标签对 Twitter 提要进行聚类的算法，其中不会将主题标签严格分配给一个集群。

非常简单的例子：

饲料 1：#food #vegetable
饲料 2：#food #vegetable
饲料 3：#food #fruit
饲料 4：#food #fruit

我想得到的结果是：

第 1 组：#food #vegetable
第 2 组：#food #fruit

当然，实际上我可以拥有数十万个提要和数千个可能的主题标签。

我在 scikit-learn 中尝试使用相似矩阵的各种方法（k 均值、谱聚类、凝聚聚类），例如：

               #food | #vegetable | #fruit |
#food            1   |    1/2     |   1/2  |
#vegetable      1/2  |     1      |    0   |
#fruit          1/2  |     0      |    1   |

所有这些算法都有效，但它们会创建不相交的集群（每个主题标签只属于一个集群）。

Answer 1

你可以认为你的hashtags是一个描述，运行它上面是一个LDA算法。它将创建包含多个主题标签的主题，并且每个主题标签都可以在多个主题中找到。
您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点，当主题标签出现在同一提要中时，边缘会增加。从此图中，您可以使用允许社区重叠的多个社区检测算法（例如 k-click）

基于标签的重叠聚类（软聚类）

Tag based clustering with overlaps (soft clustering)

python

tags

algorithm

cluster-analysis