跨区间边界对数据进行分箱
Binning data across interval boundaries
假设我有这些数据:
start end duration
1 2.67026 2.903822 0.233562
2 4.40529 5.606470 1.201180
3 9.24340 10.010818 0.767418
4 11.87930 13.414140 1.534840
5 14.78210 15.182492 0.400392
6 16.51720 16.817494 0.300294
7 22.08930 25.125610 3.036310
8 32.13240 33.667240 1.534840
9 45.47880 45.912558 0.433758
10 52.85270 54.454270 1.601570
11 55.62210 56.389518 0.767418
它们代表一分钟内发生的 11 件事。每个都有开始和结束时间(以秒为单位)以及该事件的持续时间(以秒为单位)。
我要计算的是每 10 秒花多少秒做这些事件bin/epoch。
在 data.table
中对数据进行分箱的标准方法是执行以下操作:
as.data.table(df)[, .(total = sum(duration)), by = .(INTERVAL = cut(end, seq(0,60,10)))]
INTERVAL total
1: (0,10] 1.434742
2: (10,20] 3.002944
3: (20,30] 3.036310
4: (30,40] 1.534840
5: (40,50] 0.433758
6: (50,60] 2.368988
但是请注意,事件 3 开始于 9.24340 秒,结束于 10.010818 秒。此方法仅对区间 (0,10) 中前两个事件的持续时间求和。我希望第一个间隔包括 10-9.24340 = 0.7566 秒,即它应该是 2.19132 秒。这个数字应该从第二个间隔中减去,它应该是 2.246344 秒。
在这个例子中,0-10 / 10-20 秒是事件跨越切点的唯一时间,但是,显然我需要找到一个可以推广到任意数量的潜在切点的解决方案。
我认为一个解决方案可能是将时间转换为日期时间格式(包括毫秒?)并将其用于 cut
数据,但是,我无法做到这一点。
编辑 遵循@Arun 的回答:
@Arun 的回答很好地解决了上述问题。但是,如果我们想包括所有间隔 - 即使是那些总持续时间 = 0 的间隔。
示例:
set.seed(1)
df<-
data.frame(
start=c(2.3, 3.5,6.7,9.4,10.4,13.5,16.3,18.1),
duration=runif(8,0,1)
)
df$end<-df$start+df$duration
dt<-data.table(df)
dt
start duration end
1: 2.3 0.2655087 2.565509
2: 3.5 0.3721239 3.872124
3: 6.7 0.5728534 7.272853
4: 9.4 0.9082078 10.308208
5: 10.4 0.2016819 10.601682
6: 13.5 0.8983897 14.398390
7: 16.3 0.9446753 17.244675
8: 18.1 0.6607978 18.760798
按照 Arun 的解决方案:
lookup = data.table(start = seq(0, 18, by = 2), end = seq(2, 20, by = 2))
ans = foverlaps(dt, setkey(lookup, start, end))
ans[, sum(pmin(i.end, end) - pmax(i.start, start)), by=.(start,end)]
结果:
1: 2 4 0.6376326
2: 6 8 0.5728534
3: 8 10 0.6000000
4: 10 12 0.5098897
5: 12 14 0.5000000
6: 14 16 0.3983897
7: 16 18 0.9446753
8: 18 20 0.6607978
注意间隔 0-2 和 4-6 不包括在结果中。显然,我们可以将它们重新绑定 - 但我想知道这是否可以通过调整 data.table
代码来完成?
这是我可以想到的 foverlaps()
方法。
require(data.table) # v1.9.5+ (due to bug fixes in foverlaps for double)
lookup = data.table(start = seq(0, 50, by = 10), end = seq(10, 60, by = 10))
# start end
# 1: 0 10
# 2: 10 20
# 3: 20 30
# 4: 30 40
# 5: 40 50
# 6: 50 60
ans = foverlaps(dt, setkey(lookup, start, end))
ans[, sum(pmin(i.end, end) - pmax(i.start, start)), by=.(start,end)]
# start end V1
# 1: 0 10 2.191342
# 2: 10 20 2.246344
# 3: 20 30 3.036310
# 4: 30 40 1.534840
# 5: 40 50 0.433758
# 6: 50 60 2.368988
我觉得可能还有更好的选择..
假设我有这些数据:
start end duration
1 2.67026 2.903822 0.233562
2 4.40529 5.606470 1.201180
3 9.24340 10.010818 0.767418
4 11.87930 13.414140 1.534840
5 14.78210 15.182492 0.400392
6 16.51720 16.817494 0.300294
7 22.08930 25.125610 3.036310
8 32.13240 33.667240 1.534840
9 45.47880 45.912558 0.433758
10 52.85270 54.454270 1.601570
11 55.62210 56.389518 0.767418
它们代表一分钟内发生的 11 件事。每个都有开始和结束时间(以秒为单位)以及该事件的持续时间(以秒为单位)。
我要计算的是每 10 秒花多少秒做这些事件bin/epoch。
在 data.table
中对数据进行分箱的标准方法是执行以下操作:
as.data.table(df)[, .(total = sum(duration)), by = .(INTERVAL = cut(end, seq(0,60,10)))]
INTERVAL total
1: (0,10] 1.434742
2: (10,20] 3.002944
3: (20,30] 3.036310
4: (30,40] 1.534840
5: (40,50] 0.433758
6: (50,60] 2.368988
但是请注意,事件 3 开始于 9.24340 秒,结束于 10.010818 秒。此方法仅对区间 (0,10) 中前两个事件的持续时间求和。我希望第一个间隔包括 10-9.24340 = 0.7566 秒,即它应该是 2.19132 秒。这个数字应该从第二个间隔中减去,它应该是 2.246344 秒。
在这个例子中,0-10 / 10-20 秒是事件跨越切点的唯一时间,但是,显然我需要找到一个可以推广到任意数量的潜在切点的解决方案。
我认为一个解决方案可能是将时间转换为日期时间格式(包括毫秒?)并将其用于 cut
数据,但是,我无法做到这一点。
编辑 遵循@Arun 的回答:
@Arun 的回答很好地解决了上述问题。但是,如果我们想包括所有间隔 - 即使是那些总持续时间 = 0 的间隔。
示例:
set.seed(1)
df<-
data.frame(
start=c(2.3, 3.5,6.7,9.4,10.4,13.5,16.3,18.1),
duration=runif(8,0,1)
)
df$end<-df$start+df$duration
dt<-data.table(df)
dt
start duration end
1: 2.3 0.2655087 2.565509
2: 3.5 0.3721239 3.872124
3: 6.7 0.5728534 7.272853
4: 9.4 0.9082078 10.308208
5: 10.4 0.2016819 10.601682
6: 13.5 0.8983897 14.398390
7: 16.3 0.9446753 17.244675
8: 18.1 0.6607978 18.760798
按照 Arun 的解决方案:
lookup = data.table(start = seq(0, 18, by = 2), end = seq(2, 20, by = 2))
ans = foverlaps(dt, setkey(lookup, start, end))
ans[, sum(pmin(i.end, end) - pmax(i.start, start)), by=.(start,end)]
结果:
1: 2 4 0.6376326
2: 6 8 0.5728534
3: 8 10 0.6000000
4: 10 12 0.5098897
5: 12 14 0.5000000
6: 14 16 0.3983897
7: 16 18 0.9446753
8: 18 20 0.6607978
注意间隔 0-2 和 4-6 不包括在结果中。显然,我们可以将它们重新绑定 - 但我想知道这是否可以通过调整 data.table
代码来完成?
这是我可以想到的 foverlaps()
方法。
require(data.table) # v1.9.5+ (due to bug fixes in foverlaps for double)
lookup = data.table(start = seq(0, 50, by = 10), end = seq(10, 60, by = 10))
# start end
# 1: 0 10
# 2: 10 20
# 3: 20 30
# 4: 30 40
# 5: 40 50
# 6: 50 60
ans = foverlaps(dt, setkey(lookup, start, end))
ans[, sum(pmin(i.end, end) - pmax(i.start, start)), by=.(start,end)]
# start end V1
# 1: 0 10 2.191342
# 2: 10 20 2.246344
# 3: 20 30 3.036310
# 4: 30 40 1.534840
# 5: 40 50 0.433758
# 6: 50 60 2.368988
我觉得可能还有更好的选择..