为什么 Adjusted rand index(ARI) 优于 rand index(RI) 以及如何从公式中直观理解 ARI

Why is Adjusted rand index(ARI) better than rand index(RI) and how to understand ARI intuitively from the formula

我阅读了关于 Rand Index and Adjusted Rand Index 的维基百科文章。我可以理解它们是如何进行数学计算的,并且可以将兰德指数解释为同意与分歧的比率。但我对 ARI 没有同样的直觉。

This blogpost 通过考虑重叠的机会来解释为什么 ARI 优于 RI。有人可以通过示例或直观的解释来解释为什么 ARI 优于 RI。

我认为主要的直觉点是博客中提到的那个 post 你已经链接了,

How do two random sets have a RI that is close to 1? The reason is due to the number of clusters. When there are a lot of clusters, there's a higher chance that a pair of items in both sets are in different clusters. This is still counted as a concordant event in the RI.

如果一对元素要么都在每个分区的同一个簇中,要么 如果两者都在每个分区的不同集群中。

这个 "success" 的概念可能会受到随机机会的不利影响,只需增加分区中的簇数。例如,想象一个包含 100 个示例的数据集。分区 X 会将它分成 100 个不同的子集,每个子​​集有 1 个数据点。分区Y会将它分成99个子集,98个每个有一个数据点,1个有两个数据点。

对于这种情况,常规 RI 看起来几乎是完美的,因为对于随机选择的任意两个点,它们肯定在 X 中的两个不同子集中,并且它们不在 Y 中的两个不同子集中的唯一方式是不太可能我们有可能从包含两个项目的第 99 个特殊子集中抽取了两个项目。所以 RI 会非常接近 1(如果我们让数据集大于 100,我们可以让它任意接近 1)。

但是对于 ARI,偶然项 table 中的所有 n_ij 项都将根据定义为 1 或 0,这意味着分子必须为负,表明聚类相似性较差(这基本上是由这样一个事实驱动的,即这些分区携带的唯一 'information' 是 Y 的一个子集,它有两个数据点......所以如果 X 不重现那个,它在重现Y 表示的关系)。

您可以将 X 视为 50 组不同的双元素对,将 Y 视为 50 组不同的双元素对的不同集合,从而使这个思维实验更加复杂。话又说回来,RI 看起来不错只是偶然的机会,因为大多数时候元素会随机 both 不属于同一个双元素子集。只会对实际上属于 X 或 Y(100 个可能的对)的对进行惩罚,而对于其他 (100 choose 2) - 100 剩余的对,RI 会将它们标记为已成功放入 X 和 Y 中的不同组Y. 同样,只要让数据集变大,RI 就会越来越好。