如何使用 k-means 聚类获得更多特征

how to use k-means clustering for more features

我是机器学习的新手,现在正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的特征是 AnnualIncome 和 Spendin Score。所以我的模型给出了二维的输出。如果假设我需要使用超过 2 个特征变量来执行,那时候我的模型是否超过二维?

1 > 如何对超过 2 个特征进行 k 均值聚类? 2 > 如果假设我的 csv 文件中有 5 个特征字段,如何减少特征数量?

我分两部分回答你的问题

  1. 如果您有超过 2 个特征,则 k 表示聚类发生在 n 维 space,其中 n 是每个样本向量中 features.The 的维数会改变,不需要改变算法或方法。

  2. 如果您想减少可视化的特征数量,可以使用 PCA(主成分分析)来实现。这是一个无监督的降维 technique.You 可以阅读更多内容。

要完成这两项操作,您可以使用 python sklearn 库。