如何找到数据中的特征重要性?
How to find feature importance in data?
我想知道什么列将与 no_of_purchased 相关并对其产生影响,但我同时拥有数字(例如 total_item)和非数字数据(例如 shop_type)
table 数据(列名)
- shop_id
- shop_type(例如专营权,..)
- total_item
- is_in_business_district
- is_creditcard_payment
- total_staff_in_shop
- no_of_purchased
如果我想找出对 no_of_purchase 的影响并且需要包括数字和非数字数据。我应该使用哪种模型和方法?
由于您想要特征参数的可解释性,最简单的方法是使用简单的线性回归或具有手工特征值的回归。
通过这种方式,您将获得与每个特征相关联的权重(可能是正数或负数),这将告诉您它到底有多重要。
但在实际实施线性回归模型之前,您必须通过将分类特征转换为 One-Hot 编码形式并希望对连续值进行标准化来做一些 pre-processing。
如果不是线性回归,您总是可以使用集成方法(例如 RandomForest 分类器、XGBoost 或 LightGBM)。它们开箱即用,非常易于使用。他们有一个内置的特征重要性指标,并使用不同的标准来计算这些指标。您可以浏览一下他们的文档,看看哪一个对您来说更重要。
集成方法更有可能胜过线性回归模型,因此在我看来,它们似乎是您的最佳选择。
我想知道什么列将与 no_of_purchased 相关并对其产生影响,但我同时拥有数字(例如 total_item)和非数字数据(例如 shop_type)
table 数据(列名)
- shop_id
- shop_type(例如专营权,..)
- total_item
- is_in_business_district
- is_creditcard_payment
- total_staff_in_shop
- no_of_purchased
如果我想找出对 no_of_purchase 的影响并且需要包括数字和非数字数据。我应该使用哪种模型和方法?
由于您想要特征参数的可解释性,最简单的方法是使用简单的线性回归或具有手工特征值的回归。 通过这种方式,您将获得与每个特征相关联的权重(可能是正数或负数),这将告诉您它到底有多重要。 但在实际实施线性回归模型之前,您必须通过将分类特征转换为 One-Hot 编码形式并希望对连续值进行标准化来做一些 pre-processing。
如果不是线性回归,您总是可以使用集成方法(例如 RandomForest 分类器、XGBoost 或 LightGBM)。它们开箱即用,非常易于使用。他们有一个内置的特征重要性指标,并使用不同的标准来计算这些指标。您可以浏览一下他们的文档,看看哪一个对您来说更重要。
集成方法更有可能胜过线性回归模型,因此在我看来,它们似乎是您的最佳选择。