如何使用 k-means 聚类获得更多特征
how to use k-means clustering for more features
我是机器学习的新手,现在正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers
CustomerID Genre Age Annual Income (k$) Spending Score (1-100)
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的特征是 AnnualIncome 和 Spendin Score。所以我的模型给出了二维的输出。如果假设我需要使用超过 2 个特征变量来执行,那时候我的模型是否超过二维?
1 > 如何对超过 2 个特征进行 k 均值聚类?
2 > 如果假设我的 csv 文件中有 5 个特征字段,如何减少特征数量?
我分两部分回答你的问题
如果您有超过 2 个特征,则 k 表示聚类发生在 n 维 space,其中 n 是每个样本向量中 features.The 的维数会改变,不需要改变算法或方法。
如果您想减少可视化的特征数量,可以使用 PCA(主成分分析)来实现。这是一个无监督的降维 technique.You 可以阅读更多内容。
要完成这两项操作,您可以使用 python sklearn 库。
我是机器学习的新手,现在正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers
CustomerID Genre Age Annual Income (k$) Spending Score (1-100)
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
我想对上面的 csv 文件执行 k-means 来预测谁在商场里花的钱更多。这里的特征是 AnnualIncome 和 Spendin Score。所以我的模型给出了二维的输出。如果假设我需要使用超过 2 个特征变量来执行,那时候我的模型是否超过二维?
1 > 如何对超过 2 个特征进行 k 均值聚类? 2 > 如果假设我的 csv 文件中有 5 个特征字段,如何减少特征数量?
我分两部分回答你的问题
如果您有超过 2 个特征,则 k 表示聚类发生在 n 维 space,其中 n 是每个样本向量中 features.The 的维数会改变,不需要改变算法或方法。
如果您想减少可视化的特征数量,可以使用 PCA(主成分分析)来实现。这是一个无监督的降维 technique.You 可以阅读更多内容。
要完成这两项操作,您可以使用 python sklearn 库。