单标签多类分类随机森林 python

Single-label multiclass classification random forest python

我是机器学习的新手,我目前正在处理由分类数据组成的 csv 文件格式的数据集。作为一种预处理方法,我对数据集中的所有变量进行了一次热编码。

目前我正在尝试应用随机森林算法将条目分类为 4 个 类 之一。我的问题是我不明白这些 One Hot Encoded 变量到底发生了什么。我如何将它们提供给算法?是否能够区分 buying_price_high、buying_price_low(从 buying_price 编码的一个热编码)?

我也对响应变量进行了热编码。

(One Hot Encoder)的方法适用于类别变量,类别变量没有大小relationship.For价格变量,建议大家使用OrinalEncoder.Sklearn是对[=14=的一个很好的封装], sklearn learning.preprocessing.OneHotEncoder 或 sklearn.preprocessing.OrdinalEncoder

我猜你在理解 One Hot Encoder 时遇到了问题。假设您有 4 类 个热编码器将执行的操作是将这些标签转换为二进制数,而 LabelEncoder 会将它们的标签标记为 0、1、2、3 等等。最好使用 One Hot 编码器,因为 ML 模型会给标签 3 赋予比标签 2 更高的权重。