Scikit-learn中逻辑回归的编码方式

Encoding method of Logistic Regression in Scikit-learn

我正在尝试使用逻辑回归通过 Scikit-learn 工具做一些预测任务。

她的是我任务的两个示例特征:

特征1(男人,女人,未知)---分类变量

特征2(点击次数)---连续变量

当我将数据输入逻辑回归时,我不确定如何编码特征。

我应该使用1、2和3来表示分类变量男人、女人和未知,还是使用 (1, 0, 0), (0, 1, 0), (0, 0, 1) 在我使用 Scikit-learn 的逻辑回归时代表它们?那么连续变量呢?

功能 2 您应该保留它。

功能 1 有点棘手。处理缺失数据时,您可以删除整行或尝试将值归因于特征。我建议您阅读 Scikit-Learn 文档中的 Imputing missing values before building an estimator。这将向您展示一个输入数据并测试您的预测是否正在改进的示例。如果您估算数据,请尝试为包含估算数据的行添加虚拟变量,我过去已成功应用此规范。