如何根据日期时间之间的差异合并数据框中的组行？

Question

我有一个 dataframe 每行都包含事件，有一个 Start 和 End datatime.

import pandas as pd
import datetime
df = pd.DataFrame({ 'Value' : [1.,2.,3.], 
'Start' : [datetime.datetime(2017,1,1,0,0,0),datetime.datetime(2017,1,1,0,1,0),datetime.datetime(2017,1,1,0,4,0)], 
'End' : [datetime.datetime(2017,1,1,0,0,59),datetime.datetime(2017,1,1,0,5,0),datetime.datetime(2017,1,1,0,6,00)]},
index=[0,1,2])

df
Out[7]: 
                  End               Start  Value
0 2017-01-01 00:00:59 2017-01-01 00:00:00    1.0
1 2017-01-01 00:05:00 2017-01-01 00:01:00    2.0
2 2017-01-01 00:07:00 2017-01-01 00:06:00    3.0

我想对连续行进行分组，其中连续行的 End 和 Start 之间的差异小于给定的 timedelta。例如这里的 timedelta 为 5 秒，我想用索引 0,1 对行进行分组，timedelta 为 2 分钟，它应该在行 0,1,2

中产生

一种解决方案是使用 .shift() 将连续行与其移位后的版本进行比较，但是，如果需要合并超过 2 行的组，我将需要多次迭代比较。

因为我的 df 很大，所以这不是一个选项。

Answer 1

我假设您尝试根据时差进行汇总。

marker = 60
df = df.assign(diff=df.apply(lambda row:(row.End - row.Start).total_seconds() <= marker, axis=1))

for g in df.groupby('diff'):
   print g[1]


                  End               Start  Value   diff
1 2017-01-01 00:05:00 2017-01-01 00:01:00    2.0  False
2 2017-01-01 00:06:00 2017-01-01 00:04:00    3.0  False
                  End      Start  Value  diff
0 2017-01-01 00:00:59 2017-01-01    1.0  True

Answer 2

threshold = datetime.timedelta(minutes=5)                                                  
df['delta'] = df['End'] - df['Start']                                                      
df['group'] = (df['delta'] - df['delta'].shift(-1) <= threshold).cumsum()                  
groups = df.groupby('group')

如何根据日期时间之间的差异合并数据框中的组行？

how to merge group rows in dataframe based on differences between datetime?

python

date

pandas

pandas-groupby