python、pandas：return 来自多索引的最高值

Question

让我们考虑一个 pandas DataFrame 定义如下：

from decimal import Decimal
from pandas import Timestamp
dic={'volume': {('CSC', Timestamp('2016-08-05 00:00:00'), 'CSCF7'): Decimal('13'),
  ('CSC', Timestamp('2016-08-05 00:00:00'), 'CSCG7'): Decimal('6'),
  ('CSC', Timestamp('2016-08-05 00:00:00'), 'CSCH7'): Decimal('12'),
  ('DA', Timestamp('2016-08-05 00:00:00'), 'DCF7'): Decimal('47'),
  ('DA', Timestamp('2016-08-05 00:00:00'), 'DCG7'): Decimal('16'),
  ('DA', Timestamp('2016-08-05 00:00:00'), 'DCH7'): Decimal('27')
}}

df=pd.DataFrame(dic)

我想对其进行转换，使其returns成为第 3 个索引级别的最高值。例如，在当前示例中：

                    highest  
CSC    2016-08-05   CSCF7  
DA     2016-08-05   DCF7

有人知道如何执行吗？

Answer 1

你可以 groupby 在 level 上 idxmax

In [317]: df.groupby(level=0).idxmax()
Out[317]:
                                volume
CSC  (CSC, 2016-08-05 00:00:00, CSCF7)
DA     (DA, 2016-08-05 00:00:00, DCF7)

In [318]: df.groupby(level=0).idxmax().volume.apply(pd.Series)
Out[318]:
       0          1      2
CSC  CSC 2016-08-05  CSCF7
DA    DA 2016-08-05   DCF7

或者，

In [338]: df.groupby(level=[0, 1]).volume.idxmax().apply(lambda x: x[-1])
Out[338]:
CSC  2016-08-05    CSCF7
DA   2016-08-05     DCF7
Name: volume, dtype: object

或者，

In [341]: df.groupby(level=[0, 1]).volume.idxmax().str[-1]
Out[341]:
CSC  2016-08-05    CSCF7
DA   2016-08-05     DCF7
Name: volume, dtype: object

python、pandas：return 来自多索引的最高值

python, pandas: return highest values from multiindex

python

indexing

multi-index

pandas