需要对缺失值的统计表达式进行解释

Need an interpretation on a statistical expression on missing values

我在网上读了一篇关于缺失值的论文,在解释下面以粗体突出显示的第一句话的含义时遇到了问题:

缺失数据会带来各种问题。 首先,数据的缺失会降低统计功效,统计功效是指检验在原假设为假时会拒绝原假设的概率。其次,丢失的数据会导致参数估计出现偏差。第三,会降低样本的代表性。第四,它可能会使研究分析复杂化。这些扭曲中的每一个都可能威胁到试验的有效性,并可能导致得出无效的结论。

希望听到一些解释。

首先,幂是在原假设为假时拒绝原假设的概率。所以,你可以说这是做出正确决定的概率。缺乏数据会降低这种统计功效,研究样本量较小,正在调查的影响较小,或两者都会对具有统计意义的发现实际反映真实效果的可能性产生不利影响。意思是说,如果你有 100 个样本,并且由于缺少值,你从数据集中丢弃了 40 个样本,现在无论你使用剩余的 60 个样本得出什么结论,你都不能确信它反映了真实的效果。

其次,例如,如果您选择使用均值替换那些缺失值,那么您就是在注入一种偏差实际上,对于数据,无论您决定替换或删除数据,都会注入偏差。 (尽管在某些情况下某些偏见更合理)

第三,这句话本身就很好解释,那些缺失值降低了样本的代表性,因为你没有您需要的有关这些样品的所有信息。

最后,我们可以说它(缺失值)实际上确实使我们的研究复杂化,这是我们工作时最不想做的事情与数据,但是由于人为错误和许多其他错误来源,我们经常不得不通过某些操作来处理这些缺失值。