如何可视化多列的 k-means

How to visualize k-means of multiple columns

我不是数据科学家,但我对数据科学、机器学习等很感兴趣。

在我努力理解所有这些的过程中,我不断地制作一个数据集(每天抓取)我最喜欢的游戏 Old School runescape 之一的大交换价格。

我的一个目标是挑选一套 stocks/items 能给我带来最大利润的。目前我正在尝试使用 k-means 进行聚类,以根据我能想到的一些基本特征找到彼此相似的股票。

但是我不知道我做的是否正确, 例如:

( y = kmeans.fit_predict(df_items) 我的 item_id 包含在其中,所以它现在是否真的考虑将 item_id 作为一个功能?)

以及我如何可视化结果,我的意思是 x 轴上发生了什么,y 轴上发生了什么,我有多个列...

https://github.com/extreme4all/OSRS_DataSet/blob/master/NoteBooks/Stock%20Picking.ipynb

要可视化某些东西,您必须将维数减少到 2-3 维,此外,您可以使用颜色作为第 4 维,或者在您的情况下指示簇数。

tSNE 是此任务的常见选择,请查看 sklearn 文档了解详细信息:https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html

为多变量数据选择几乎任何可视化技术。

  • 散点图矩阵
  • 平行坐标
  • 降维(PCA 对 k-mrans 比 tSNE 更有意义,但也考虑 Fishers LDA、LMNN 等)
  • 箱线图
  • 小提琴情节
  • ...