如何在 python 中分别计算每个集群的 Silhouette Score

Question

您可以使用 1 行代码对所有集群的分数进行平均来轻松提取轮廓分数，但是如何从轮廓分数的 scikit 学习实现中提取每个中间分数？我希望能够分别为每个集群提取相同的分数，而不仅仅是获得总分。

metrics.silhouette_score(x, y, metric='euclidean')

Answer 1

如果您的数据看起来像这样：

num_clusters = 3
X, y = datasets.load_iris(return_X_y=True)
kmeans_model = KMeans(n_clusters=num_clusters, random_state=1).fit(X)
cluster_labels = kmeans_model.labels_

您可以使用 metrics.silhouette_samples 计算每个样本的轮廓系数，然后取每个簇的平均值：

sample_silhouette_values = metrics.silhouette_samples(X, cluster_labels)

means_lst = []
for label in range(num_clusters):
    means_lst.append(sample_silhouette_values[cluster_labels == label].mean())

print(means_lst)                                                                             
[0.4173199215409322, 0.7981404884286224, 0.45110506043401194] # 1 mean for each of the 3 clusters

如何在 python 中分别计算每个集群的 Silhouette Score

How to calculate the Silhouette Score for each cluster separately in python

python

cluster-analysis

k-means

python-3.x

scikit-learn