报价数据的线性回归模型

Linear Regression Model for Quote Data

我想建立一个线性回归模型来确定各种参数对报价的影响。报价的数据收集了 10 年。

y = 价格

X = [System size(int),ZIP, Year, module_manufacturer, module_name, inverter_manufacturer,inverter_name, 电池存储(二进制),数量installers/offerer in the region(int), installer_density, new_construction(binary), self_installation(binary), 家庭密度]

问题:

  1. 什么类型的回归模型适合这个数据集?
  2. 由于技术进步,报价逐年下降。我如何解释模型中的不同年份?我发现了一些例子,其中年份被视为二进制变量。另一种选择:每年的多元回归模型。有没有办法组合这些多个模型?
  3. 数据集是否属于面板数据类型?

不幸的是,我还没有找到任何可以明确帮助我处理数据的信息。但也许我没有使用正确的搜索词。如果有任何建议能使我朝着正确的方向前进,我将非常高兴。

假设您有一个名为 datadata.frame,其中包含价格、system_size、邮编、年份、battery_storage 等列。那么您可以从简单的线性回归开始:

lm(price ~ system_size + zip + year + battery_storage, data = data)

year 包含在模型中,因此您可以考虑随时间的变化。 如果您想去除批次效应(例如不同地区的邮政编码)并且您只想在去除不同位置的影响后对价格进行建模,您可以 运行 线性混合模型:

lmerTest::lmer(price ~ system_size + year + battery_storage + (1|zip), data = data)

如果你有很高的相关性,例如在年份和 system_size 之间,您可能希望在公式中包含 year:system_size 等交互项。 根据经验,每个变量需要 10 个样本才能获得合理的拟合。如果多了可以先做一个变量选择