如何找到数据中的特征重要性？

How to find feature importance in data?

我想知道什么列将与 no_of_purchased 相关并对其产生影响，但我同时拥有数字（例如 total_item）和非数字数据（例如 shop_type)

table 数据（列名）

shop_id
shop_type（例如专营权，..）
total_item
is_in_business_district
is_creditcard_payment
total_staff_in_shop
no_of_purchased

如果我想找出对 no_of_purchase 的影响并且需要包括数字和非数字数据。我应该使用哪种模型和方法？

由于您想要特征参数的可解释性，最简单的方法是使用简单的线性回归或具有手工特征值的回归。通过这种方式，您将获得与每个特征相关联的权重（可能是正数或负数），这将告诉您它到底有多重要。但在实际实施线性回归模型之前，您必须通过将分类特征转换为 One-Hot 编码形式并希望对连续值进行标准化来做一些 pre-processing。

如果不是线性回归，您总是可以使用集成方法（例如 RandomForest 分类器、XGBoost 或 LightGBM）。它们开箱即用，非常易于使用。他们有一个内置的特征重要性指标，并使用不同的标准来计算这些指标。您可以浏览一下他们的文档，看看哪一个对您来说更重要。

集成方法更有可能胜过线性回归模型，因此在我看来，它们似乎是您的最佳选择。

如何找到数据中的特征重要性？

How to find feature importance in data?

python

machine-learning