两样本 t 检验和正态性检查

Two sample t-test and normality check

我正在进行 t 检验,看看 A 组和 B 组的平均值是否不同。

A 组 - 样本量约为 20K
B 组 - 样本量约为 670K
t test for A and B

由于 P 值小于 alpha,我拒绝零假设并得出 A 组和 B 组的平均值不同的结论。 然而,为了进行双样本 t 检验,其中一个要求是样本(在我的例子中是 A 和 B)必须是独立的并且来自正态分布。它们是独立的,并且由于我的样本量足够大且具有中心极限定理的威力,我认为最好假设它来自正态分布。
但是我决定做一个正常的测试来确定这是真的。
A 和 B 来自 X,所以对 X 进行 notmal 测试显示:
A and B come from X, normal test on X
由于 p 值小于 alpha,我们必须拒绝原假设(样本来自正态分布)
我哪里错了? ttest 是否有效? A 和 B 是否来自正态分布?

当检验统计量服从正态分布时,t 检验有效。在这种情况下,使用的统计数据是两个总体的平均值。

使用中心极限定理,如果你的样本量足够大,你可以假设均值来自正态分布。但是,不能假设人口本身是正态分布的。

T 检验不需要假设样本来自正态分布。只要求检验统计量(在本例中为均值)来自正态分布。

由于样本量足够大,均值来自正态分布,可以对你的样本进行t检验。

除了您可以取消 t 检验的答案之外,因为样本量非常大,这意味着样本均值的分布根据中心极限定理是正态的(您可以将检验统计量定义为两个样本的差异意味着来自正态分布的总体),这也有助于在给定效果大小和样本大小的情况下计算检验的功效。

使用如此大的样本,测试可以足够灵敏地检测出微小的差异。您可能想问问自己,均值相差 0.001 对您的问题而言是否重要。因为如果不是这样,测试可能会误导您认为一个样本的平均值在实际意义上显着小于或大于另一个样本,而测试检测到的效果很可能虽然具有统计显着性,可能实际上微不足道。