百分比回归 - 在 r、python 和 matlab 中有不同的结果

Question

我有百分比并且需要计算回归。根据基本统计数据，使用逻辑回归优于 OLS，因为百分比使连续和无约束值的要求无效 space。

到目前为止，还不错。但是，我在 R、Python 和 Matlab 中得到了不同的结果。事实上，Matlab 甚至会报告重要的值，而 python 不会。

我的模型看起来像：

R:
summary(glm(foo ~ 1 + bar + baz  , family = "binomial", data = <<data>>))

Python via statsmodels:
smf.logit('foo ~ 1 + bar + baz', <<data>>).fit().summary()

Matlab:
fitglm(<<data>>,'foo ~ 1 + bar + baz','Link','logit')

目前 Matlab 生成的结果最好。

可以有不同的初始化值吗？不同的求解器？计算 p 值时 alpha 的不同设置？我怎样才能至少在相似的数值范围内或检测到重要的相同特征中获得相同的结果？我不需要完全相等的数字输出。

编辑

汇总统计

python:
Dep. Variable:  foo No. Observations:   104
Model:  Logit   Df Residuals:   98
Method: MLE Df Model:   5
Date:   Wed, 28 Aug 2019    Pseudo R-squ.:  inf
Time:   06:48:12    Log-Likelihood: -0.25057
converged:  True    LL-Null:    0.0000
LLR p-value:    1.000
coef    std err z   P>|z|   [0.025  0.975]
Intercept   -16.9863    154.602 -0.110  0.913   -320.001    286.028
bar -0.0278 0.945   -0.029  0.977   -1.880  1.824
baz 18.5550 280.722 0.066   0.947   -531.650    568.760
a   9.9996  153.668 0.065   0.948   -291.184    311.183
b   0.6757  132.542 0.005   0.996   -259.102    260.454
d   0.0005  0.039   0.011   0.991   -0.076  0.077


R:
glm(formula = myformula, family = "binomial", data = r_x)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
-0.046466  -0.013282  -0.001017   0.006217   0.104467  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -1.699e+01  1.546e+02  -0.110    0.913
bar                     -2.777e-02  9.449e-01  -0.029    0.977
baz                               1.855e+01  2.807e+02   0.066    0.947
a                       1.000e+01  1.537e+02   0.065    0.948
b                       6.757e-01  1.325e+02   0.005    0.996
d  4.507e-04  3.921e-02   0.011    0.991

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 0.049633  on 103  degrees of freedom
Residual deviance: 0.035684  on  98  degrees of freedom
AIC: 12.486

Matlab:
Estimated Coefficients:
                                            Estimate         SE         tStat        pValue  
                                            _________    __________    ________    __________

    (Intercept)                               -21.044         3.315     -6.3483    6.8027e-09
    bar                        -0.033507      0.022165     -1.5117       0.13383
    d    0.0016149    0.00083173      1.9416      0.055053
    baz                                    21.427        6.0132      3.5632    0.00056774
    a                            14.875        3.7828      3.9322    0.00015712
    b                           -1.2126        2.7535    -0.44038       0.66063


104 observations, 98 error degrees of freedom
Estimated Dispersion: 1.25e-06
F-statistic vs. constant model: 7.4, p-value = 6.37e-06

Answer 1

您实际上并没有在 MATLAB 案例中使用二项分布。您正在指定 link 函数，但分布仍然是正态分布的默认值，这不会给您预期的逻辑拟合，至少在百分比的样本量很小的情况下。它还为您提供了较低的 p 值，因为正态分布在方差方面的限制比二项分布小。

您需要将 Distribution 参数指定为 Binomial:

fitglm(<<data>>, 'foo ~ 1 + bar + baz', 'Distribution', 'binomial ', 'Link', 'logit')

R 和 Python 代码似乎相当匹配。

百分比回归 - 在 r、python 和 matlab 中有不同的结果

regression for percentages - different results in r, python and matlab

python

matlab

regression

r

percentage

编辑