如何在此混合线性回归分析中保持 'Time' 和 'Group'

Question

我有以下学习成果：取两组小鼠：group A（接受药物 A）和 group B（接受药物 B）。 Weight 在 baseline 和 after 1 month 进行了测试。因此，数据排列如下：

ID      Group       Time        Weight
1       A           basal       25          
1       A           1month      28
2       B           basal       29
2       B           1month      28
...
...

我想确定 A 组和 B 组的体重变化是否不同。

我从本页的类似示例中获取了代码：https://scientificallysound.org/2017/08/24/the-likelihood-ratio-test-relevance-and-application/

如何为我的研究进行混合线性回归。我有两个选择：

md = smf.mixedlm("Weight ~ Group", data, groups=data["Time"])
mdf = md.fit(reml=False)
print(mdf.summary())

或：

md = smf.mixedlm("Weight ~ Time", data, groups=data["Group"])
mdf = md.fit(reml=False)
print(mdf.summary())

或者我只是做线性回归？这里还有2个选项：

`"Weight ~ Time + Group"`

和

`"Weight ~ Time + Group + Time*Group"` ?

注意：以上代码需要import statsmodels.formula.api as smf。

Answer 1

您可以使用 difference-in-difference 技巧来达到您想要的结果。

为组变量创建一个虚拟变量（即 -> 1 如果组 == B，0 如果组 == A）。然后为采样时间创建另一个虚拟变量（基线为 0，治疗后为 1）。

那么你的第三个选项将正常工作以获得时间*组交互变量的系数。

我猜你比我更懂怎么写代码，但是从统计上来说，第三种解法肯定是你要找的，为了监督你的学习效果

编辑-明确地说，第三个选项是（重量~组+时间+组*时间）

在处理包含固定效应的面板数据集时，我可能会使用混合模型。使用混合回归，您可以克服从所谓的随机或不同分布（例如，某个数据集可以在不同国家和不时以不同方式分布）中抽样的数据所产生的问题。根据我的经验，这种情况在处理面板数据集时最为常见。根据您的需要，我肯定会使用 diff-in-diff 模型，因为时间和组之间的差异是您想要衡量的。（并且不要试图抵消它的影响）。

如何在此混合线性回归分析中保持 'Time' 和 'Group'

How to keep 'Time' and 'Group' in this mixed linear regression analysis

python

regression

linear-regression

mixed-models