ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive) when using silhouette_score

Question

我正在尝试计算 silhouette score，因为我找到了要创建的最佳簇数，但收到一条错误消息：

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

我无法理解其中的原因。这是我用来聚类和计算 silhouette score 的代码。

我阅读了包含要聚类的文本的 csv 和运行 K-Means n 聚类值。我收到此错误的原因可能是什么？

  #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []

def split_words(text):
  return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()

def preprocess_document(text):
  sp_words = split_words(text)
  return sp_words

for i, t in enumerate(overview):
  vectors.append(loaded_model.infer_vector(preprocess_document(t)))

sse = {}
silhouette = {}


for k in range(1,15):
  km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
  sse[k] = km.inertia_
  #FOLLOWING LINE CAUSES ERROR
  silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')

best_cluster_size = 1
min_error = float("inf")

for cluster_size in sse:
    if sse[cluster_size] < min_error:
        min_error = sse[cluster_size]
        best_cluster_size = cluster_size

print(sse)
print("====")
print(silhouette)

Answer 1

产生错误是因为你有一个针对不同数量簇的循环n。在第一次迭代期间，n_clusters 是 1 并且 这导致 all(km.labels_ == 0) 是 True。

换句话说，你只有一个标签为 0 的集群（因此，np.unique(km.labels_) 打印 array([0], dtype=int32)）。

`silhouette_score`需要 1 个以上的聚类标签。这会导致错误。错误信息很清楚。

示例：

from sklearn import datasets
from sklearn.cluster import KMeans
import numpy as np

iris = datasets.load_iris()
X = iris.data
y = iris.target

km = KMeans(n_clusters=3)
km.fit(X,y)

# check how many unique labels do you have
np.unique(km.labels_)
#array([0, 1, 2], dtype=int32)

我们有 3 个不同的 clusters/cluster 标签。

silhouette_score(X, km.labels_, metric='euclidean')
0.38788915189699597

功能正常。

现在，让我们来引发错误：

km2 = KMeans(n_clusters=1)
km2.fit(X,y)

silhouette_score(X, km2.labels_, metric='euclidean')

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

Answer 2

根据文档，

Note that Silhouette Coefficient is only defined if number of labels is 2 <= n_labels <= n_samples - 1

所以解决这个问题的一种方法是不使用for k in range(1,15)，尝试从k = 2开始迭代，也就是for k in range(2,15)。这对我有用。

Answer 3

尝试更改 min_samples 以及算法和指标。

用于有效的指标和算法列表。 sklearn.neighbors.VALID_METRICS

Answer 4

尝试增加您的 eps 值。我也遇到了同样的错误，但是当我选择更高的 eps 值时，错误消失了。

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive) when using silhouette_score