机器学习训练视角
Machine Learning Training Perspective
我只是需要一些指导。我看到很多方向,我想看看我最好的大道。所以基本上我有一个 pandas 组的数据框类似于这个(组在 4 中):
Name Role XP Acumen
0 Johnny Tsunami Driver 1000 39
1 Michael B. Jackson Pistol 2500 46
2 Bobby Zuko Pistol 3000 50
3 Greg Ritcher Lookout 200 25
4 Johnny Tsunami Driver 1000 39
5 Michael B. Jackson Pistol 2500 46
6 Bobby Zuko Pistol 3000 50
7 Appa Derren Lookout 250 30
8 Baby Hitsuo Driver 950 35
9 Michael B. Jackson Pistol 2500 46
10 Bobby Zuko Pistol 3000 50
11 Appa Derren Lookout 250 30
所以基本上我想训练模型根据上面的数据框选择相似的组。最终目标是我想给它一个庞大的数据集并让它挑选出行来创建类似于上面的组。也许对其进行改进,使其在值中挑选出相似的数字准确性。
最好的路线是什么?有监督无监督。线性....k 簇?我需要在哪里指出我的研究。采取哪些最佳步骤。
我要采取的第一步是了解您希望如何计算上述数据中看起来相当明确的相似性。最基本的方法是 运行 聚类/分类算法(在您的情况下大部分是无监督的)。就个人而言,如果您不知道如何继续,即使 k-means
运行 也相当快速和准确(DBSCAN 是我的最爱)。我还会进行探索性分析(自组织地图/Kohonen 地图可能对您的情况有用)以了解数据的分布方式。
您想在聚类/分类后创建组并将这些组相互比较,对吗?您还需要提出一个相似性指标,例如 KL 散度来进行比较。
主要问题是想出一个 'k' 来聚类您的数据,但我觉得您需要尝试不同的值,您的直觉将发挥重要作用!
链接:
索姆:https://www.ncbi.nlm.nih.gov/pubmed/16566459
DBSCAN:https://scikit-learn.org/stable/modules/clustering.html#dbscan
KL 散度/交叉熵损失:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html
我只是需要一些指导。我看到很多方向,我想看看我最好的大道。所以基本上我有一个 pandas 组的数据框类似于这个(组在 4 中):
Name Role XP Acumen
0 Johnny Tsunami Driver 1000 39
1 Michael B. Jackson Pistol 2500 46
2 Bobby Zuko Pistol 3000 50
3 Greg Ritcher Lookout 200 25
4 Johnny Tsunami Driver 1000 39
5 Michael B. Jackson Pistol 2500 46
6 Bobby Zuko Pistol 3000 50
7 Appa Derren Lookout 250 30
8 Baby Hitsuo Driver 950 35
9 Michael B. Jackson Pistol 2500 46
10 Bobby Zuko Pistol 3000 50
11 Appa Derren Lookout 250 30
所以基本上我想训练模型根据上面的数据框选择相似的组。最终目标是我想给它一个庞大的数据集并让它挑选出行来创建类似于上面的组。也许对其进行改进,使其在值中挑选出相似的数字准确性。
最好的路线是什么?有监督无监督。线性....k 簇?我需要在哪里指出我的研究。采取哪些最佳步骤。
我要采取的第一步是了解您希望如何计算上述数据中看起来相当明确的相似性。最基本的方法是 运行 聚类/分类算法(在您的情况下大部分是无监督的)。就个人而言,如果您不知道如何继续,即使 k-means
运行 也相当快速和准确(DBSCAN 是我的最爱)。我还会进行探索性分析(自组织地图/Kohonen 地图可能对您的情况有用)以了解数据的分布方式。
您想在聚类/分类后创建组并将这些组相互比较,对吗?您还需要提出一个相似性指标,例如 KL 散度来进行比较。
主要问题是想出一个 'k' 来聚类您的数据,但我觉得您需要尝试不同的值,您的直觉将发挥重要作用!
链接: 索姆:https://www.ncbi.nlm.nih.gov/pubmed/16566459 DBSCAN:https://scikit-learn.org/stable/modules/clustering.html#dbscan KL 散度/交叉熵损失:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html