如何找到数据中的特征重要性?

How to find feature importance in data?

我想知道什么列将与 no_of_purchased 相关并对其产生影响,但我同时拥有数字(例如 total_item)和非数字数据(例如 shop_type)

table 数据(列名)

  1. shop_id
  2. shop_type(例如专营权,..)
  3. total_item
  4. is_in_business_district
  5. is_creditcard_payment
  6. total_staff_in_shop
  7. no_of_purchased

如果我想找出对 no_of_purchase 的影响并且需要包括数字和非数字数据。我应该使用哪种模型和方法?

由于您想要特征参数的可解释性,最简单的方法是使用简单的线性回归或具有手工特征值的回归。 通过这种方式,您将获得与每个特征相关联的权重(可能是正数或负数),这将告诉您它到底有多重要。 但在实际实施线性回归模型之前,您必须通过将分类特征转换为 One-Hot 编码形式并希望对连续值进行标准化来做一些 pre-processing。

如果不是线性回归,您总是可以使用集成方法(例如 RandomForest 分类器、XGBoost 或 LightGBM)。它们开箱即用,非常易于使用。他们有一个内置的特征重要性指标,并使用不同的标准来计算这些指标。您可以浏览一下他们的文档,看看哪一个对您来说更重要。

集成方法更有可能胜过线性回归模型,因此在我看来,它们似乎是您的最佳选择。