线性回归系数与决策树特征重要性的关系
Relation between coefficients in linear regression and feature importance in decision trees
最近我有一个机器学习 (ML) 项目,需要识别对 target/outputs 有很大影响的特征(输入、a1、a2、a3 ... an)。
我使用线性回归来获取特征的系数,并使用决策树算法(例如随机森林回归器)来获取重要特征(或特征重要性)。
线性回归中系数大的特征在决策树算法中应该排在最重要特征的前列,我的理解对吗?
不是真的,如果你的输入特征没有归一化,你可以有一个相对大的特征系数相对较大 mean/std。如果你的特征被规范化,那么是的,这可能是特征重要性的一个指标,但还有其他事情需要考虑。
您可以尝试一些 sklearn 的功能选择 类 应该会自动为您执行此操作 here。
对您的问题的简短回答是否定的,不一定。考虑到我们不知道您的不同输入是什么,它们是否在同一单位系统中,变化范围等。
我不确定您为什么将线性回归与决策树结合起来。但我只是假设你有一个工作模型,比如一个线性回归,它在测试集上提供了很好的准确性。根据您的要求,您可能需要根据获得的模型查看敏感性分析。我建议阅读 "SALib" 图书馆和敏感性分析的一般主题。
最近我有一个机器学习 (ML) 项目,需要识别对 target/outputs 有很大影响的特征(输入、a1、a2、a3 ... an)。
我使用线性回归来获取特征的系数,并使用决策树算法(例如随机森林回归器)来获取重要特征(或特征重要性)。
线性回归中系数大的特征在决策树算法中应该排在最重要特征的前列,我的理解对吗?
不是真的,如果你的输入特征没有归一化,你可以有一个相对大的特征系数相对较大 mean/std。如果你的特征被规范化,那么是的,这可能是特征重要性的一个指标,但还有其他事情需要考虑。
您可以尝试一些 sklearn 的功能选择 类 应该会自动为您执行此操作 here。
对您的问题的简短回答是否定的,不一定。考虑到我们不知道您的不同输入是什么,它们是否在同一单位系统中,变化范围等。 我不确定您为什么将线性回归与决策树结合起来。但我只是假设你有一个工作模型,比如一个线性回归,它在测试集上提供了很好的准确性。根据您的要求,您可能需要根据获得的模型查看敏感性分析。我建议阅读 "SALib" 图书馆和敏感性分析的一般主题。