如何使用 k-means 聚类获得更多特征

Question

我是机器学习的新手，现在正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的特征是 AnnualIncome 和 Spendin Score。所以我的模型给出了二维的输出。如果假设我需要使用超过 2 个特征变量来执行，那时候我的模型是否超过二维？

1 > 如何对超过 2 个特征进行 k 均值聚类？ 2 > 如果假设我的 csv 文件中有 5 个特征字段，如何减少特征数量？

Answer 1

我分两部分回答你的问题

如果您有超过 2 个特征，则 k 表示聚类发生在 n 维 space，其中 n 是每个样本向量中 features.The 的维数会改变，不需要改变算法或方法。
如果您想减少可视化的特征数量，可以使用 PCA（主成分分析）来实现。这是一个无监督的降维 technique.You 可以阅读更多内容。

要完成这两项操作，您可以使用 python sklearn 库。

如何使用 k-means 聚类获得更多特征

how to use k-means clustering for more features

machine-learning

k-means