按 lubridate %within% 间隔对组值求和

Question

有 10 个项目分为 A 组和 B 组，每个项目的开始和结束日期不同。对于给定时间段内的每一天，需要计算 outputX 和 outputY 的总和。我设法对所有项目一起执行此操作，但如何按组拆分结果？

我用 lapply() 和 purrr:map() 做了几次尝试，也查看了过滤器和拆分，但无济于事。下面是一个不区分组的例子。

library(tidyverse)
library(lubridate)

df <- data.frame(
  project = 1:10,
  group = c("A","B"),
  outputX = rnorm(2),
  outputY = rnorm(5),
  start_date = sample(seq(as.Date('2018-01-3'), as.Date('2018-1-13'), by="day"), 10),
  end_date = sample(seq(as.Date('2018-01-13'), as.Date('2018-01-31'), by="day"), 10))
df$interval <- interval(df$start_date, df$end_date)

period <- data.frame(date = seq(as.Date("2018-01-08"), as.Date("2018-01-17"), by = 1))

df_sum <- do.call(rbind, lapply(period$date, function(x){
  index <- x %within% df$interval;
  list("X" = sum(df$outputX[index]),
       "Y" = sum(df$outputY[index]))}))

outcome <- cbind(period, df_sum) %>% gather("id", "value", 2:3)

outcome

最终，它应该是 40x4 table。非常感谢一些建议！

Answer 1

如果我没理解错的话，你需要使用内连接。 SO 可以建议我们使用 sqldf。参见

根据您的数据，我们可以这样做。不需要计算df$interval，但我们需要在period上加上ID，否则sqldf就不行了。

df <- data.frame(
  project = 1:10,
  group = c("A","B"),
  outputX = rnorm(2),
  outputY = rnorm(5),
  start = sample(seq(as.Date('2018-01-3'), as.Date('2018-1-13'), by="day"), 10),
  end = sample(seq(as.Date('2018-01-13'), as.Date('2018-01-31'), by="day"), 10))
# df$interval <- interval(df$start_date, df$end_date)

period <- data.frame(date = seq(as.Date("2018-01-08"), as.Date("2018-01-17"), by = 1)) %>% 
  mutate(id = 1:nrow(.))

那我们就可以用sqldf

sqldf::sqldf("select * from period inner join df 
              on (period.date > df.start and period.date <= df.end) ") %>% 
  as_tibble() %>% 
  group_by(date, group) %>% 
  summarise(X = sum(outputX),
            Y = sum(outputY)) %>% 
  gather(id, value, -group, -date)
# A tibble: 40 x 4
# Groups:   date [10]
   date       group id    value
   <date>     <fct> <chr> <dbl>
 1 2018-01-08 A     X      3.04
 2 2018-01-08 B     X      2.34
 3 2018-01-09 A     X      3.04
 4 2018-01-09 B     X      3.51
 5 2018-01-10 A     X      3.04
 6 2018-01-10 B     X      4.68
 7 2018-01-11 A     X      4.05
 8 2018-01-11 B     X      4.68
 9 2018-01-12 A     X      4.05
10 2018-01-12 B     X      5.84
# ... with 30 more rows

按 lubridate %within% 间隔对组值求和

Sum group values by lubridate %within% interval

r

lubridate