基于标签的重叠聚类(软聚类)

Tag based clustering with overlaps (soft clustering)

我正在寻找一种基于主题标签对 Twitter 提要进行聚类的算法,其中不会将主题标签严格分配给一个集群。

非常简单的例子:

我想得到的结果是:

当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。

我在 scikit-learn 中尝试使用相似矩阵的各种方法(k 均值、谱聚类、凝聚聚类),例如:

               #food | #vegetable | #fruit |
#food            1   |    1/2     |   1/2  |
#vegetable      1/2  |     1      |    0   |
#fruit          1/2  |     0      |    1   |

所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。

  • 你可以认为你的hashtags是一个描述,运行它上面是一个LDA算法。它将创建包含多个主题标签的主题,并且每个主题标签都可以在多个主题中找到。
  • 您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点,当主题标签出现在同一提要中时,边缘会增加。从此图中,您可以使用允许社区重叠的多个社区检测算法(例如 k-click)