什么时候热编码?员工流失率示例
When to hot encode ? Employee attrition level example
我的问题如下:
我在数据集中有以下分类变量来预测员工的流失。
我目前做了一个热编码:工作级别、工作角色、婚姻状况、18 岁以上、加班,并为序数列保持相同的标签编码(绩效评级、关系满意度和工作满意度).
然后,在分成训练集和测试集之后,我将使用随机 Forrest 分类器来预测 Attrition (Yes/No)。
我的编码方式是否正确(一种热用于分类,而没有用于序数列)?
非常感谢您帮我解决这个疑惑!
首先,你应该怀疑一切并进行性能测试。
一般来说,决策树模型要么不需要 one-hot 编码,要么在它之后表现更差。当然也有例外,但在现代 ML 世界树模型中,如果经常因无需大量预处理即可处理高维分类数据的能力而受到尊重。
我的问题如下:
我在数据集中有以下分类变量来预测员工的流失。
我目前做了一个热编码:工作级别、工作角色、婚姻状况、18 岁以上、加班,并为序数列保持相同的标签编码(绩效评级、关系满意度和工作满意度).
然后,在分成训练集和测试集之后,我将使用随机 Forrest 分类器来预测 Attrition (Yes/No)。
我的编码方式是否正确(一种热用于分类,而没有用于序数列)?
非常感谢您帮我解决这个疑惑!
首先,你应该怀疑一切并进行性能测试。
一般来说,决策树模型要么不需要 one-hot 编码,要么在它之后表现更差。当然也有例外,但在现代 ML 世界树模型中,如果经常因无需大量预处理即可处理高维分类数据的能力而受到尊重。