Python Dataframe:在一列上使用 Groupby 计算置信区间或预测区间

Python Dataframe: Calculating Confidence or Prediction Intervals Using Groupby on One Column

我有一个 table 如下所示:

Type    Actual  Predicted
A       4       3
A       10      18
A       13      11
B       3       10
B       4       2
B       8       33
C       20      17
C       40      33
C       87      80
C       32      30

我想计算每种类型的 R^2 和 RMSE。执行此操作的代码如下:

import numpy as np
import pandas as pd
from sklearn.metrics import r2_score, mean_squared_error

def r2_rmse( g ):
    r2 = r2_score( g['Actual'], g['Predicted'] )
    rmse = np.sqrt( mean_squared_error( g['Actual'], g['Predicted'] ) )
    return pd.Series( dict(  r2 = r2, rmse = rmse ) )

your_df.groupby( 'Type' ).apply( r2_rmse ).reset_index()

示例输出 Table(值是假设的):

Type    R^2     RMSE    
A       0.66    4   
B       1.00    6   
C       0.03    1

上面的代码有效并给了我想要的输出。但现在我想在类型级别的 table 中添加置信区间/预测区间。我确实在互联网上搜索过如何做到这一点,但没有运气。

概念性问题:如果我想要以 95% 的置信度捕获实际值的值范围,我 运行 实际列还是预测列的置信区间?

下面是示例table我想要:

Type    Conf_Int_90%  Conf_Int_80%
    A    (21, 100)       (5, 55)
    B    (10, 46)        (3, 14)
    C    (1, 19)         (12, 19)

我觉得置信区间代码是这样的:

st.t.interval(0.95, len(a)-1, loc=np.mean(a), scale=st.sem(a)) BUT ... 

我将哪些特定代码合并到现有代码(如上所示)中,以便获得我想要的 table 输出?

尝试如下,据我了解,置信区间应该在预测的列中进行操作。希望对你有帮助:)

import numpy as np
import pandas as pd
import scipy.stats as st
from sklearn.metrics import r2_score, mean_squared_error

def r2_rmse_interval(g):
    r2 = r2_score( g['Actual'], g['Predicted'] )
    rmse = np.sqrt( mean_squared_error( g['Actual'], g['Predicted'] ))
    st_interval = st.t.interval(0.95, len(g) -1, loc=np.mean(g.Predicted), scale=st.sem(g.Predicted))
    return pd.Series( dict(  r2 = r2, rmse = rmse, st_interval = st_interval) )


df = pd.DataFrame({'Type': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'],
               'Actual': [4, 10, 13, 3, 4, 8, 20, 40, 87, 32],
               'Predicted': [3, 18, 11, 10, 2, 33, 17, 33, 80, 30]}, 
                columns=['Type', 'Actual', 'Predicted'])

df.groupby( 'Type' ).apply( r2_rmse_interval ).reset_index()

使用 standard formula for 95% CI:

sample mean +/- 1.96 * std.err

你可以用 apply 一次完成所有事情:

def stats(g):
    r2 = r2_score(g.Actual, g.Predicted)
    rmse = np.sqrt(mean_squared_error(g.Actual, g.Predicted))
    ci95_hi = g.Predicted.mean() + g.Predicted.sem() * 1.96
    ci95_lo = g.Predicted.mean() - g.Predicted.sem() * 1.96
    return r2, rmse,(ci95_lo, ci95_hi)

df.groupby("Type").apply(stats)