k 均值聚类 python 中的多列数据
k-means clustering multi column data in python
我有一个文本文件中包含 2000 行的数据集。
每条线代表人体20个骨骼关节点(如:头、肩中心、左肩、右肩、……、左肘、右肘)的x,y,z(三维坐标位置)。我想对这些数据进行 k 均值聚类。
数据由'spaces '分隔,每个关节由3个值表示(代表x,y,z坐标)。像
代表的头肩中心
.0255... .01556600 1.3000... .0243333 .010000 .1.3102000 ....
所以基本上我每行有 60 列,代表 20 个关节,每个关节由三个点组成。
我的问题是如何格式化或使用这些数据进行 k 均值聚类,
您不需要重新格式化任何东西。
每一行都是连续值的 60 维向量,具有可比较的尺度(坐标),根据 k-means 的需要。
你可以 运行 k-means 就可以了。
但假设测量是按顺序进行的,您可能会观察到行之间存在很强的相关性,所以我不希望数据聚类得非常好,除非您设置用途来做和保持某些姿势。
我有一个文本文件中包含 2000 行的数据集。
每条线代表人体20个骨骼关节点(如:头、肩中心、左肩、右肩、……、左肘、右肘)的x,y,z(三维坐标位置)。我想对这些数据进行 k 均值聚类。
数据由'spaces '分隔,每个关节由3个值表示(代表x,y,z坐标)。像
代表的头肩中心
.0255... .01556600 1.3000... .0243333 .010000 .1.3102000 ....
所以基本上我每行有 60 列,代表 20 个关节,每个关节由三个点组成。
我的问题是如何格式化或使用这些数据进行 k 均值聚类,
您不需要重新格式化任何东西。
每一行都是连续值的 60 维向量,具有可比较的尺度(坐标),根据 k-means 的需要。
你可以 运行 k-means 就可以了。
但假设测量是按顺序进行的,您可能会观察到行之间存在很强的相关性,所以我不希望数据聚类得非常好,除非您设置用途来做和保持某些姿势。