如何在 scikit-learn 中处理带名称的数据？

How to handle data with names in scikit-learn?

python
python-2.7
scikit-learn

我即将尝试使用聚类算法来聚类文件属性（例如访问时间）。

scikit 是否支持命名数据的聚类，即如何在聚类算法后检索文件名运行？

有没有办法将元数据与训练数据一起存储，例如文件名？此元数据应在特征缩放、引入人工特征等方面幸存下来。

目前无法将名称或属性附加到 scikit-learn 中的行。这很快就会改变 (https://github.com/scikit-learn/scikit-learn/issues/4497)。但就目前而言，自己很容易跟踪这一点。数据点的顺序和你弄出来的簇标签的顺序是一样的，所以第一个簇标签对应第一个文件名etc

如何在 scikit-learn 中处理带名称的数据？

How to handle data with names in scikit-learn?

python

python-2.7

scikit-learn