如何在 Pandas 中的 groupby 之后获取列的计数百分比

Question

我正在尝试获取数据列表中姓名的每个排名的成绩分布。但是，我无法弄清楚如何在其等级组中获得每个等级的 proportion/percentage 。这是一个例子：

df.head()

name    rank    grade
Bob     1       A
Bob     1       A
Bob     1       B
Bob     1       C
Bob     2       B
Bob     3       C
Joe     1       C
Joe     2       B
Joe     2       B
Joe     3       A
Joe     3       B
Joe     3       B

我使用 grade_count = df.groupby(['name', 'rank', 'grade']).['grade'].size()) 给我它的 (name,rank) 组中每个年级的计数：

name    rank    grade
Bob     1       A     2
                B     1
                C     1
        2       B     1
        3       C     1
Joe     1       C     1
        2       B     2
        3       A     1
                B     2

现在对于计算的每个尺寸，我想得到它在 (name,rank) 组中的比例（即一个等级在一个系统中的比例是多少）这是我想要的输出:

name    rank    grade
Bob     1       A     2    0.5   (Bob @ rank 1 had 4 grades, and 50% of them are A's)
                B     1    0.25
                C     1    0.25
        2       B     1    1
        3       C     1    1
Joe     1       C     1    1
        2       B     2    1
        3       A     1    0.33
                B     2    0.66

我已经设法通过使用 rank_totals = grade_count.groupby(level[0,1]).sum() 得到每个排名组的总数，结果是：

name    rank    
Bob     1       4
        2       1
        3       1
Joe     1       1
        2       2
        3       3

如何将 grade_count 中的数字除以它们在 rank_totals 中的相应排名总数？

Answer 1

按名称和排名级别对您的数据进行分组，然后使用 transform 获取您系列的总数并将其广播到整个系列。用那个系列来划分当前系列：

grade_count.groupby(level = [0,1]).transform(sum)
Out[19]: 
name  rank  grade
Bob   1     A        4
            B        4
            C        4
      2     B        1
      3     C        1
Joe   1     C        1
      2     B        2
      3     A        3
            B        3
dtype: int64

grade_count / grade_count.groupby(level = [0,1]).transform(sum)
Out[20]: 
name  rank  grade
Bob   1     A        0.500000
            B        0.250000
            C        0.250000
      2     B        1.000000
      3     C        1.000000
Joe   1     C        1.000000
      2     B        1.000000
      3     A        0.333333
            B        0.666667

如何在 Pandas 中的 groupby 之后获取列的计数百分比

How to get percentage of counts of a column after groupby in Pandas

python

group-by

aggregate

percentage

pandas