线性回归中的负系数

Negative Coefficients in linear regression

我有一个包含大约 10 个自变量的数据集。 (1000 行 x 10 列)。

我所知道的所有这些都会对我的目标变量产生积极的贡献。

一旦我 运行 对此进行多元线性回归,我就有负系数。 这是否意味着该属性应该具有负贡献? 因此我的模型不正确? (因为他们应该都有积极的贡献?)

感谢任何帮助。 谢谢,J

你的模型没问题。它可以有负权重。它们(权重)更多的是相对贡献。它们显示了一个功能与其他功能相比如何产生影响。

负权重应该不是问题。这意味着当所有独立特征都设置为 0 时,依赖特征的期望值将小于 0。对于一些相关的特征,这是意料之中的。例如,如果相关特征的平均值为 -ve,则常量为 -ve;相反,这里的 +ve 值会有问题。

如果数据的相关特征总是正的,那么它也可以有正值。例如,考虑一个与从属特征具有强正相关性的独立特征。

相关特征的值为正,范围为 1-10,
独立特征的值是正的,范围是 200-210

在这种情况下,回归线可以穿过 x=0x=200 之间的 x 轴,这将导致 constant.i.即回归线的负值可以从第一象限移动到第四象限

首先,质疑您如何知道变量都是正贡献。你如何支持这种说法?第二,你是如何确定这10个变量在统计上独立的?

如果他们不是真正独立的,那么就有可能看到这个明显的矛盾。虽然这十个中的每一个都可能有积极的贡献,但很容易建立一个组合过度贡献的案例。

考虑 a、b 和 c,其中 a 和 c 具有轻微的正相关,b 与每个具有更高的相关性。如果其中任何一个增加,输出就会增加。但是,如果 所有三个 增加,很可能一个简单的多项式度量会增加 too 很多,因为 a 和 c 都增加了;由于 b 随着它们的增加而增加,因此可以使用负系数来平衡这种过度贡献。换句话说,由于 "winning team" 太强了,b 背叛了对手以保持游戏的适当平衡。 :-)

这说明问题了吗?它符合问题吗?

最可能的原因是变量之间的相关性,因为样本量有限和系统中存在噪声。只有当你收集无限数据然后计算相关性时,它才会归零。样本量越小,估计相关性的误差就越大。

1) 尝试计算变量与 1000 个示例的相关性。 2) 我的直觉是你的负权重与正权重相比应该非常小,因为样本量增加负权重的可能性降低。

只是好奇你的 10 个变量是什么,你如何判断它们是独立的?

这件事发生在我身上。我在线性回归中有正相关但权重为负,没有可能的解释,因为数据不存在共线性,这不可能在解释中合理化。它根本没有意义。

在我的例子中,导致这个问题的原因是 Pandas 数据帧索引被弄乱了。在我应用 df.reset_index() 之后,我得到了预期的变量行为,问题就解决了。