在实施逻辑回归模型时包括特征
Including features when implementing a logistic regression model
对于某些情况,我正在尝试进行一些匹配以查看该公司是否与另一家公司匹配。我已经对数据进行了特征工程,例如名称匹配、地址匹配、域匹配等...
从那里,我还创建了另一个功能,该功能基于一种方法,该方法包含名称匹配、地址匹配和域匹配的组合,并根据我认为更重要的直觉设置它们的权重在确定一场比赛。我们称此功能为 'final score'。这个分数让我粗略估计这些是否匹配。
现在是我实施逻辑回归的部分。我尝试使用我在不使用 'final score' 和使用 'final score' 时设计的功能构建逻辑回归,结果非常相似。
注意:我确实检查了特征的重要性,它非常重要。
我的问题是在训练模型时,将 'final score' 作为逻辑回归模型的特征包含在内是否是一种好的做法?
一般来说,您不希望线性和逻辑回归类型模型中具有高度相关的特征。它对性能没有影响,但会影响模型的解释。
此问题被称为 Multicollinearity,是由于参数(系数)的不稳定(高方差)估计引起的。
你可以看看这个answer来了解它的原因。
我可以提供一个直观的例子,它可能会引起麻烦:
Y = P(scoring a goal by football player in a match)
Feature vector = [weight, height] # height and weight are highly correlated
那么学习到的模型可能是:
log(P(goal)/P(1-goal)) = 0.55*weight- 0.12*height + bias
# how would you interpret the negative coefficient of height now?
在 ways (regularization) to deal with this as well as there are situations 处可以安全地使用此类相关特征。
对于某些情况,我正在尝试进行一些匹配以查看该公司是否与另一家公司匹配。我已经对数据进行了特征工程,例如名称匹配、地址匹配、域匹配等...
从那里,我还创建了另一个功能,该功能基于一种方法,该方法包含名称匹配、地址匹配和域匹配的组合,并根据我认为更重要的直觉设置它们的权重在确定一场比赛。我们称此功能为 'final score'。这个分数让我粗略估计这些是否匹配。
现在是我实施逻辑回归的部分。我尝试使用我在不使用 'final score' 和使用 'final score' 时设计的功能构建逻辑回归,结果非常相似。
注意:我确实检查了特征的重要性,它非常重要。
我的问题是在训练模型时,将 'final score' 作为逻辑回归模型的特征包含在内是否是一种好的做法?
一般来说,您不希望线性和逻辑回归类型模型中具有高度相关的特征。它对性能没有影响,但会影响模型的解释。
此问题被称为 Multicollinearity,是由于参数(系数)的不稳定(高方差)估计引起的。
你可以看看这个answer来了解它的原因。
我可以提供一个直观的例子,它可能会引起麻烦:
Y = P(scoring a goal by football player in a match)
Feature vector = [weight, height] # height and weight are highly correlated
那么学习到的模型可能是:
log(P(goal)/P(1-goal)) = 0.55*weight- 0.12*height + bias
# how would you interpret the negative coefficient of height now?
在 ways (regularization) to deal with this as well as there are situations 处可以安全地使用此类相关特征。