如何在特定列上制作 kmeans?
how make kmeans on specific columns?
我想对我的数据集的特定列进行 K 均值计算。
由于这些是分类数据,我打算对其进行 onehot_encoding。现在我想知道是否可以对特定列执行 K-means 并显示所有列的结果(例如一组)?
例如,我有 col1, col2 and col3
,col2 and col3
上的 K 均值是 onehot_encoded,并用 col1, col2 and col3
显示结果。
我希望我已经清楚地表达了我的担忧
这遵循 kmeans 的 basic documentation:
from sklearn.cluster import KMeans
#here you select your columns
X = df[['col1', 'col2', 'col3']]
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
#this will give you the groups back
kmeans.predict(X)
因此 kmeans 预测命令将为您返回可以添加到原始数据的组。
我想对我的数据集的特定列进行 K 均值计算。 由于这些是分类数据,我打算对其进行 onehot_encoding。现在我想知道是否可以对特定列执行 K-means 并显示所有列的结果(例如一组)?
例如,我有 col1, col2 and col3
,col2 and col3
上的 K 均值是 onehot_encoded,并用 col1, col2 and col3
显示结果。
我希望我已经清楚地表达了我的担忧
这遵循 kmeans 的 basic documentation:
from sklearn.cluster import KMeans
#here you select your columns
X = df[['col1', 'col2', 'col3']]
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
#this will give you the groups back
kmeans.predict(X)
因此 kmeans 预测命令将为您返回可以添加到原始数据的组。