机器学习训练视角

Question

我只是需要一些指导。我看到很多方向，我想看看我最好的大道。所以基本上我有一个 pandas 组的数据框类似于这个（组在 4 中）：

Name                        Role    XP    Acumen
0   Johnny Tsunami        Driver    1000      39
1   Michael B. Jackson    Pistol    2500      46
2   Bobby Zuko            Pistol    3000      50
3   Greg Ritcher         Lookout    200       25
4   Johnny Tsunami        Driver    1000      39
5   Michael B. Jackson    Pistol    2500      46
6   Bobby Zuko            Pistol    3000      50
7   Appa Derren          Lookout    250       30
8   Baby Hitsuo           Driver    950       35
9   Michael B. Jackson    Pistol    2500      46
10  Bobby Zuko            Pistol    3000      50
11  Appa Derren          Lookout    250       30

所以基本上我想训练模型根据上面的数据框选择相似的组。最终目标是我想给它一个庞大的数据集并让它挑选出行来创建类似于上面的组。也许对其进行改进，使其在值中挑选出相似的数字准确性。

最好的路线是什么？有监督无监督。线性....k 簇？我需要在哪里指出我的研究。采取哪些最佳步骤。

Answer 1

我要采取的第一步是了解您希望如何计算上述数据中看起来相当明确的相似性。最基本的方法是运行聚类/分类算法（在您的情况下大部分是无监督的）。就个人而言，如果您不知道如何继续，即使 k-means 运行也相当快速和准确（DBSCAN 是我的最爱）。我还会进行探索性分析（自组织地图/Kohonen 地图可能对您的情况有用）以了解数据的分布方式。

您想在聚类/分类后创建组并将这些组相互比较，对吗？您还需要提出一个相似性指标，例如 KL 散度来进行比较。

主要问题是想出一个 'k' 来聚类您的数据，但我觉得您需要尝试不同的值，您的直觉将发挥重要作用！

链接：索姆：https://www.ncbi.nlm.nih.gov/pubmed/16566459 DBSCAN：https://scikit-learn.org/stable/modules/clustering.html#dbscan KL 散度/交叉熵损失：https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html

机器学习训练视角

Machine Learning Training Perspective

machine-learning

training-data