偏差残差图逻辑回归

deviance residual plot logistic regressioon

对于我的 class 项目,我们应该对 Framingham 数据集使用拟合逻辑回归。

fit_select <- glm(Event~Sex+age.group+I(log(Cigar.Day+1))+BP.Med+Prev.Hyp+Diab+ I(log(Tol.Chol))+BMI+Gluc+bp.level, data= data, family = binomial(link="logit"))  

当我们尝试绘制偏差残差时,(我知道这些应该是二项式的,但我们有超过 3000 个观察值,所以根据 CLT,它们应该表现正常)

qqnorm(residuals(fit_select, type = "deviance"))

我们得到

怎么了?我不确定如何解释这一点。

When we try to plot deviance residuals, (and I know that those are supposed to be binomial, but we have over 3000 observations, so by CLT those should behave normally)

当你有二进制响应时,它不应该是正态分布的。您需要计数数据才能获得正态近似值。我没记错的话,粗略的经验法则是二项式和泊松模型的预期计数为 5 或更大。

What is wrong? I am not sure how to interpret this.

当您有二进制响应时,您不能将绘图用于任何事情。