使用哪种 spark MLIB 算法?
Which spark MLIB algorithm to use?
我是机器学习的新手,想了解使用什么算法(分类算法或相关算法?)来理解一个或多个属性之间的关系。
例如考虑我有以下一组属性,
Bill No, Bill Amount, Tip amount, Waiter Name
并想弄清楚哪些是对小费金额有贡献的属性。
以下为样本数据集,
Bill No, Bill Amount, Tip amount, Waiter detail
1, 100, 10, Sathish
2, 200, 20, Sathish
3, 150, 10, Rahul
4, 200, 10, Simon
5, 100, 10, Sathish
在这种情况下,我们知道小费金额将 99% 受到账单金额的影响。但我想知道我应该使用什么 Spark MLib 算法来找出相同的算法?如果是这样,我可以将类似的技术应用于长属性集。
您可以做的一件事是计算行之间的相关性。在 mllib 网站上查看有关 summary statistics 的教程。
更高级的方法是使用 dimensionality reduction。这应该会发现更复杂的依赖关系。
您可以计算不同行之间的相关性。请参考相关性(https://spark.apache.org/docs/latest/mllib-statistics.html#correlations)。例如,如果您计算 Bill Amount 和 Tip amount 之间的相关性,很可能您会得到接近 1 的相关值。
我是机器学习的新手,想了解使用什么算法(分类算法或相关算法?)来理解一个或多个属性之间的关系。
例如考虑我有以下一组属性,
Bill No, Bill Amount, Tip amount, Waiter Name
并想弄清楚哪些是对小费金额有贡献的属性。
以下为样本数据集,
Bill No, Bill Amount, Tip amount, Waiter detail
1, 100, 10, Sathish
2, 200, 20, Sathish
3, 150, 10, Rahul
4, 200, 10, Simon
5, 100, 10, Sathish
在这种情况下,我们知道小费金额将 99% 受到账单金额的影响。但我想知道我应该使用什么 Spark MLib 算法来找出相同的算法?如果是这样,我可以将类似的技术应用于长属性集。
您可以做的一件事是计算行之间的相关性。在 mllib 网站上查看有关 summary statistics 的教程。
更高级的方法是使用 dimensionality reduction。这应该会发现更复杂的依赖关系。
您可以计算不同行之间的相关性。请参考相关性(https://spark.apache.org/docs/latest/mllib-statistics.html#correlations)。例如,如果您计算 Bill Amount 和 Tip amount 之间的相关性,很可能您会得到接近 1 的相关值。