scikit 的 f1_score 的 avg macro/micro 可以用于多标签聚类吗?
Can scikit's f1_score's avg macro/micro be used for multi-labeled clustering?
似乎 scikitlearn 的 f1_score avg micro/macro (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) 是基于多标签数据分类器,但我想知道是否同样可以用于多标签数据分类器标签聚类?
我正在使用的数据是使用 scikit 的 kmeans 在 50.000 时间序列 (ts) 上进行聚类的。所以我以以下形式结束集群:c1{ts_1, ts_2 ...}, c2{ts_20, ts_21 ...} 等
每个时间序列可以有太多标签,我想将其用作 f1 平均微观和宏观分数的黄金标准。一个集群的时间序列可以被它的标签(L)代替:c1{(L_1, L_2), (L_2), (L_2), (L_3, L_4, L_5)...}
可以将 f1 平均微观和宏观分数应用于此类数据集的聚类,还是我应该查看其他分数?
没有。因为聚类使用自己的 "labels"(通常是 0...k),并且没有 1 对 1 匹配分类标签。
聚类不是分类。 "unsupervised classification" 一词非常具有误导性,因为差异可能非常大。这就是为什么集群中似乎没有人使用这个术语。
改用任何已建立的集群评估指标。
似乎 scikitlearn 的 f1_score avg micro/macro (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) 是基于多标签数据分类器,但我想知道是否同样可以用于多标签数据分类器标签聚类?
我正在使用的数据是使用 scikit 的 kmeans 在 50.000 时间序列 (ts) 上进行聚类的。所以我以以下形式结束集群:c1{ts_1, ts_2 ...}, c2{ts_20, ts_21 ...} 等
每个时间序列可以有太多标签,我想将其用作 f1 平均微观和宏观分数的黄金标准。一个集群的时间序列可以被它的标签(L)代替:c1{(L_1, L_2), (L_2), (L_2), (L_3, L_4, L_5)...}
可以将 f1 平均微观和宏观分数应用于此类数据集的聚类,还是我应该查看其他分数?
没有。因为聚类使用自己的 "labels"(通常是 0...k),并且没有 1 对 1 匹配分类标签。
聚类不是分类。 "unsupervised classification" 一词非常具有误导性,因为差异可能非常大。这就是为什么集群中似乎没有人使用这个术语。
改用任何已建立的集群评估指标。