Scikit-learn：用于集群评估的 ARI 分数

Question

我正在计算 evaluating the cluster performance 的调整后兰德指数得分。假设，真实的集群和预测的集群如下所示。格式 {i, "x"} 表示元素 "x" 在 ith 簇中。

>>> labels_true = [{0,"a"}, {0,"b"}, {0,"c"}, {1,"d"}, {1,"e"}, {1,"f"}]
>>> labels_pred = [{0,"a"}, {0,"b"}, {1,"c"}, {1,"d"}, {2,"e"}, {2,"f"}]
>>> metrics.adjusted_rand_score(labels_true, labels_pred)

ARI 分数即将达到 1.0，但似乎不应该是 1.0，因为预测的集群与真实的集群不同。

我想知道这是否是计算 ARI 分数的有效方法。

Answer 1

您只需将标签放入 ARI 分数函数中即可：
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.adjusted_rand_score(labels_true, labels_pred)

Scikit-learn：用于集群评估的 ARI 分数

Scikit-learn: ARI score for cluster evaluation

python

cluster-analysis

scikit-learn