Python Pandas,从 .groupby().apply() 中的组切片行
Python Pandas, slice rows from group in .groupby().apply()
我有以下代码设置调用和 groupBy 并应用于 Python Pandas DataFrame。
奇怪的是我无法按行对分组数据进行切片(如 df.loc[2:5]
),除非它完全破坏输出(如调试所示),你怎么能删除行并得到它给出所需的输出?
任何帮助将不胜感激,我运行这是一个更大的例子,具有更复杂的功能,但已经指出了行切片的问题!
代码:
import pandas as pd
df = pd.DataFrame({'one' : ['AAL', 'AAL', 'AAPL', 'AAPL'], 'two' : [1, 2, 3, 4]})
def net_func(df):
df_res = daily_func(df, True)
df_res_valid = daily_func(df, False)
df_merge = pd.merge(df_res, df_res_valid)
return df_merge
def daily_func(df, bool_param):
# df.drop(df.head(1).index, inplace=True)
# df = df[1:1]
# df.iloc[1:1,:]
# df.loc[1:1,:]
if bool_param:
df['daily'+str(bool_param)] = 1
else:
df['daily'+str(bool_param)] = 0
return df
print df.groupby('one').apply(net_func)
当前输出:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
期望的输出:
one two dailyTrue dailyFalse
one
AAL 1 AAL 2 1 0
AAPL 1 AAPL 2 1 0
理想情况下,我希望能够按行对每个组进行切片,例如 df.loc[3:5]
- 这将是完美的!
我试过评论如下:
输出 df.drop(df.head(1).index, inplace=True)
:
Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []
更新:还尝试使用 df = df[1:1]
:
输出
Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []
更新也试过了df.iloc[1:1,:]
:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
和df.loc[1:1,:]
:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
考虑在 groupby().apply()
之后使用横截面切片 xs
,相应地指定每个键:
print df.groupby('one').apply(net_func).xs(0, level=1)
# one two dailyTrue dailyFalse
#one
#AAL AAL 1 1 0
#AAPL AAPL 1 1 0
print df.groupby('one').apply(net_func).xs(1, level=1)
# one two dailyTrue dailyFalse
#one
#AAL AAL 2 1 0
#AAPL AAPL 2 1 0
或者,将 multiple indexing 与元组列表一起使用:
print df.groupby('one').apply(net_func).ix[[('AAL', 1), ('AAPL', 1)]]
# one two dailyTrue dailyFalse
#one
#AAL 1 AAL 2 1 0
#AAPL 1 AAPL 2 1 0
还有slice(在pandas 0.14中引入):
print df.groupby('one').apply(net_func).loc[(slice('AAL','AAPL'),slice(1,1)),:]
# one two dailyTrue dailyFalse
#one
#AAL 1 AAL 2 1 0
#AAPL 1 AAPL 2 1 0
我觉得需要在 GroupBy
对象内部进行切片,我一直在通过应用这个猴子补丁来这样做:
def __groupby_slice( _grp, start=0, stop=None, step=1):
'''
Applies a slice to a GroupBy object
'''
return _grp.apply( lambda _df : _df.iloc[start:stop:step]).reset_index(drop=True)
pd.core.groupby.GroupBy.slice = __groupby_slice
用作:
df.groupby('feature0').slice(-10, -3, 2)
与pandas==0.25.3
合作
只需在 groupby.apply 中使用一个 iloc:
groupby.apply(lambda group: group.iloc[start:stop:step])
我有以下代码设置调用和 groupBy 并应用于 Python Pandas DataFrame。
奇怪的是我无法按行对分组数据进行切片(如 df.loc[2:5]
),除非它完全破坏输出(如调试所示),你怎么能删除行并得到它给出所需的输出?
任何帮助将不胜感激,我运行这是一个更大的例子,具有更复杂的功能,但已经指出了行切片的问题!
代码:
import pandas as pd
df = pd.DataFrame({'one' : ['AAL', 'AAL', 'AAPL', 'AAPL'], 'two' : [1, 2, 3, 4]})
def net_func(df):
df_res = daily_func(df, True)
df_res_valid = daily_func(df, False)
df_merge = pd.merge(df_res, df_res_valid)
return df_merge
def daily_func(df, bool_param):
# df.drop(df.head(1).index, inplace=True)
# df = df[1:1]
# df.iloc[1:1,:]
# df.loc[1:1,:]
if bool_param:
df['daily'+str(bool_param)] = 1
else:
df['daily'+str(bool_param)] = 0
return df
print df.groupby('one').apply(net_func)
当前输出:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
期望的输出:
one two dailyTrue dailyFalse
one
AAL 1 AAL 2 1 0
AAPL 1 AAPL 2 1 0
理想情况下,我希望能够按行对每个组进行切片,例如 df.loc[3:5]
- 这将是完美的!
我试过评论如下:
输出 df.drop(df.head(1).index, inplace=True)
:
Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []
更新:还尝试使用 df = df[1:1]
:
Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []
更新也试过了df.iloc[1:1,:]
:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
和df.loc[1:1,:]
:
one two dailyTrue dailyFalse
one
AAL 0 AAL 1 1 0
1 AAL 2 1 0
AAPL 0 AAPL 1 1 0
1 AAPL 2 1 0
考虑在 groupby().apply()
之后使用横截面切片 xs
,相应地指定每个键:
print df.groupby('one').apply(net_func).xs(0, level=1)
# one two dailyTrue dailyFalse
#one
#AAL AAL 1 1 0
#AAPL AAPL 1 1 0
print df.groupby('one').apply(net_func).xs(1, level=1)
# one two dailyTrue dailyFalse
#one
#AAL AAL 2 1 0
#AAPL AAPL 2 1 0
或者,将 multiple indexing 与元组列表一起使用:
print df.groupby('one').apply(net_func).ix[[('AAL', 1), ('AAPL', 1)]]
# one two dailyTrue dailyFalse
#one
#AAL 1 AAL 2 1 0
#AAPL 1 AAPL 2 1 0
还有slice(在pandas 0.14中引入):
print df.groupby('one').apply(net_func).loc[(slice('AAL','AAPL'),slice(1,1)),:]
# one two dailyTrue dailyFalse
#one
#AAL 1 AAL 2 1 0
#AAPL 1 AAPL 2 1 0
我觉得需要在 GroupBy
对象内部进行切片,我一直在通过应用这个猴子补丁来这样做:
def __groupby_slice( _grp, start=0, stop=None, step=1):
'''
Applies a slice to a GroupBy object
'''
return _grp.apply( lambda _df : _df.iloc[start:stop:step]).reset_index(drop=True)
pd.core.groupby.GroupBy.slice = __groupby_slice
用作:
df.groupby('feature0').slice(-10, -3, 2)
与pandas==0.25.3
只需在 groupby.apply 中使用一个 iloc:
groupby.apply(lambda group: group.iloc[start:stop:step])