pandas 如何将重复的数据行收集到一行中？

Question

我有一个数据集，其中包含 NBA 球员每场比赛的平均统计数据。一些球员的数据重复是因为他们在不同的赛季效力于不同的球队。

例如：

      Player       Pos  Age Tm    G     GS   MP      FG
8   Jarrett Allen   C   22  TOT  28     10  26.2     4.4
9   Jarrett Allen   C   22  BRK  12     5   26.7     3.7
10  Jarrett Allen   C   22  CLE  16     5   25.9     4.9

我想平均 Jarrett Allen 的统计数据并将它们放在一行中。我该怎么做？

Answer 1

您可以 groupby and use agg 获取平均值。对于非数字列，我们取第一个值：

df.groupby('Player').agg({k: 'mean' if v in ('int64', 'float64') else 'first'
                          for k,v in df.dtypes[1:].items()})

输出：

              Pos  Age   Tm          G        GS         MP        FG
Player                                                               
Jarrett Allen   C   22  TOT  18.666667  6.666667  26.266667  4.333333

注意。词典内容理解：

{'Pos': 'first',
 'Age': 'mean',
 'Tm': 'first',
 'G': 'mean',
 'GS': 'mean',
 'MP': 'mean',
 'FG': 'mean'}

Answer 2

x = [['a', 12, 5],['a', 12, 7], ['b', 15, 10],['b', 15, 12],['c', 20, 1]]

import pandas as pd
df = pd.DataFrame(x, columns=['name', 'age', 'score'])
print(df)
print('-----------')

df2 = df.groupby(['name', 'age']).mean()
print(df2)

输出：

  name  age  score
0    a   12      5
1    a   12      7
2    b   15     10
3    b   15     12
4    c   20      1
-----------
          score
name age       
a    12       6
b    15      11
c    20       1

pandas 如何将重复的数据行收集到一行中？

How can repetitive rows of data be collected in a single row in pandas?

python

dataframe

pandas

data-science