Statsmodels Python 用少一个预测变量预测线性回归

Question

我在长达一年的数据集中训练了一个包含 20 个预测变量的线性回归模型。下面是 x20，它是一个数组列表，每个数组都是一个要输入线性回归的预测变量。 y 是我要拟合的观察结果，model 是生成的线性回归模型。正在训练期间选择观察值和预测变量（除了我将验证或预测的最后一天（24 小时）外）：

num_verifydays = 1
##############Train MOS model##################
x20=[predictor1[:-(num_verifydays)*24],predictor2[:-(num_verifydays)*24],
predictor3[:-(num_verifydays)*24],predictor4[:-(num_verifydays)*24],
predictor5[:-(num_verifydays)*24],predictor6[:-(num_verifydays)*24],
predictor7[:-(num_verifydays)*24],predictor8[:-(num_verifydays)*24],
predictor9[:-(num_verifydays)*24],predictor10[:-(num_verifydays)*24],
predictor11[:-(num_verifydays)*24],predictor12[:-(num_verifydays)*24],
predictor13[:-(num_verifydays)*24],predictor14[:-(num_verifydays)*24],
predictor15[:-(num_verifydays)*24],predictor16[:-(num_verifydays)*24],
predictor17[:-(num_verifydays)*24],predictor18[:-(num_verifydays)*24],
predictor19[:-(num_verifydays)*24],predictor20[:-(num_verifydays)*24]]

x20 = np.asarray(x20).T.tolist()

y = result_full['obs'][:-(num_verifydays)*24]

model = sm.OLS(y,x20, missing='drop').fit()

我想在我的验证日使用此模型使用所有 20 个预测变量进行预测，然后仅使用 19 个预测变量来查看使用较少预测变量时技能有多大差异。我尝试将 predictor20 设置为 x19 中的零数组，您将在下面看到，但这似乎给我带来了奇怪的结果：

##################predict with regression model##################
x20=[predictor1[-(num_verifydays)*24:],predictor2[-(num_verifydays)*24:],
predictor3[-(num_verifydays)*24:],predictor4[-(num_verifydays)*24:],
predictor5[-(num_verifydays)*24:],predictor6[-(num_verifydays)*24:],
predictor7[-(num_verifydays)*24:],predictor8[-(num_verifydays)*24:],
predictor9[-(num_verifydays)*24:],predictor10[-(num_verifydays)*24:],
predictor11[-(num_verifydays)*24:],predictor12[-(num_verifydays)*24:],
predictor13[-(num_verifydays)*24:],predictor14[-(num_verifydays)*24:],
predictor15[-(num_verifydays)*24:],predictor16[-(num_verifydays)*24:],
predictor17[-(num_verifydays)*24:],predictor18[-(num_verifydays)*24:],
predictor19[-(num_verifydays)*24:],predictor20[-(num_verifydays)*24:]]

x19=[predictor1[-(num_verifydays)*24:],predictor2[-(num_verifydays)*24:],
predictor3[-(num_verifydays)*24:],predictor4[-(num_verifydays)*24:],
predictor5[-(num_verifydays)*24:],predictor6[-(num_verifydays)*24:],
predictor7[-(num_verifydays)*24:],predictor8[-(num_verifydays)*24:],
predictor9[-(num_verifydays)*24:],predictor10[-(num_verifydays)*24:],
predictor11[-(num_verifydays)*24:],predictor12[-(num_verifydays)*24:],
predictor13[-(num_verifydays)*24:],predictor14[-(num_verifydays)*24:],
predictor15[-(num_verifydays)*24:],predictor16[-(num_verifydays)*24:],
predictor17[-(num_verifydays)*24:],predictor18[-(num_verifydays)*24:],
predictor19[-(num_verifydays)*24:],np.zeros(num_verifydays*24)]

x20 = np.asarray(x20).T.tolist()
x19 = np.asarray(x19).T.tolist()

results20 = model.predict(x20)
results19 = model.predict(x19)

Answer 1

你应该拟合两个不同的模型，一个有 19 个外生变量，另一个有 20 个。这比在 19 变量集上测试 20 变量模型在统计上更合理，因为拟合系数会不同。

model19 = sm.OLS(y,x19, missing='drop').fit()
model20 = sm.OLS(y,x20, missing='drop').fit()

您的数据的频率是多少？使用 1 天 (n=1) 的测试数据集不会让您得到一个非常真实的可变重要性图。

查看此变量重要性的其他方法是查看两个模型之间增加或丢失的增量 R 平方。

还可以考虑检查 sklearn 的 feature_selection 功能。

Statsmodels Python 用少一个预测变量预测线性回归

Statsmodels Python Predict Linear Regression with one less predictor

python

regression

predict

statsmodels