建立模型时数据科学问题中的分类变量处理
Categorical Variable Treating in Data Science problem while Building Model
我遇到过各种问题,是否考虑对预测有一定影响的分类变量。
我想知道,在构建具有大约 43 个级别的模型时,我们是否应该考虑分类变量。
类别category_level
我想为二进制分类问题建立一个模型,因为我已经尝试过 scikit learn 中的 LevelEncoder、OneHotencoder 等。
但是没有任何结果,也不知道我该如何考虑这个分类特征。
我们可以在预测中使用分类变量。如果您提到的大约有 43 个级别,您可以将类似的级别归为一个类别,依此类推。这将是一个业务决策,或者您可以看到该变量中的不同类别与输出变量的关系。这会将级别的数量从 43 减少到更少的数量。然后在这些俱乐部类别上创建虚拟变量。
另一种方法是使用方差分析(方差分析)来查看该变量中不同类别的差异。如果它们没有显着差异,您可以将它们归为一类。我将分享一个示例来解释相同的内容。
我遇到过各种问题,是否考虑对预测有一定影响的分类变量。 我想知道,在构建具有大约 43 个级别的模型时,我们是否应该考虑分类变量。 类别category_level
我想为二进制分类问题建立一个模型,因为我已经尝试过 scikit learn 中的 LevelEncoder、OneHotencoder 等。 但是没有任何结果,也不知道我该如何考虑这个分类特征。
我们可以在预测中使用分类变量。如果您提到的大约有 43 个级别,您可以将类似的级别归为一个类别,依此类推。这将是一个业务决策,或者您可以看到该变量中的不同类别与输出变量的关系。这会将级别的数量从 43 减少到更少的数量。然后在这些俱乐部类别上创建虚拟变量。
另一种方法是使用方差分析(方差分析)来查看该变量中不同类别的差异。如果它们没有显着差异,您可以将它们归为一类。我将分享一个示例来解释相同的内容。