如何按天对时间间隔求和：给定的一天包括多少个间隔？

Question

我有一个非常大的时间间隔数据集（开始和结束日期值），需要计算这些日期的整个范围内的每一天有多少间隔包括日期。

本质上，我想知道某一天有多少人在监狱里。我知道他们什么时候进来，什么时候离开。我需要能够确定在多年的时间里每天有多少人入狱。

示例数据：

require(tidyverse)
require(lubridate)

x <- tribble(~start, ~end,
        today()-5, today()-3,
        today()-4, today()-2,
        today()-3, today()-1)


x <- x %>% mutate(dtint = interval(start, end))
x
#> # A tibble: 3 x 3
#>   start      end        dtint                         
#>   <date>     <date>     <Interval>                    
#> 1 2019-10-13 2019-10-15 2019-10-13 UTC--2019-10-15 UTC
#> 2 2019-10-14 2019-10-16 2019-10-14 UTC--2019-10-16 UTC
#> 3 2019-10-15 2019-10-17 2019-10-15 UTC--2019-10-17 UTC

mydays <- seq(min(x$start), max(x$end), by = "day") %>% enframe(name = NULL, value = "eachday")
mydays
#> # A tibble: 5 x 1
#>   eachday   
#>   <date>    
#> 1 2019-10-13
#> 2 2019-10-14
#> 3 2019-10-15
#> 4 2019-10-16
#> 5 2019-10-17

#Expected result:
mydays %>% add_column(expected_result = c(1, 2, 3, 2, 1))
#> # A tibble: 5 x 2
#>   eachday    expected_result
#>   <date>               <dbl>
#> 1 2019-10-13               1
#> 2 2019-10-14               2
#> 3 2019-10-15               3
#> 4 2019-10-16               2
#> 5 2019-10-17               1

^{由 reprex package (v0.3.0)}

于 2019-10-18 创建

我还需要能够对分组的小标题执行此操作，以便我可以按人口统计属性计算总数等内容。

在 tidyverse/lubridate 中有没有有效的方法来做到这一点？

Answer 1

涉及 dplyr、tidyr 和 lubridate 的一个选项可能是：

x %>%
 mutate(eachday = list(seq.Date(min(start), max(end), by = "1 day"))) %>%
 unnest(eachday) %>%
 group_by(eachday) %>%
 summarise(overlap = sum(int_overlaps(dtint, interval(eachday, eachday))))

  eachday    overlap
  <date>       <int>
1 2019-10-13       1
2 2019-10-14       2
3 2019-10-15       3
4 2019-10-16       2
5 2019-10-17       1

首先，它在数据中的第一个日期和最后一个日期之间创建一个日期列表并取消嵌套。然后，它按日期分组并对 dtint 间隔和日期间隔之间的重叠求和。

Answer 2

这是一种使用每个分组人口统计的累积计数来跟踪总数的方法。

# Example data
library(tidyverse)
set.seed(42)
x <- tibble(demographic = sample(LETTERS[1:3], 100, replace = T),
            start = as.Date("2019-01-01") + runif(100, 0, 30),
            end = start + runif(100, 1, 50))
## A tibble: 6 x 3
#  demographic start      end       
#  <chr>       <date>     <date>    
#1 C           2019-01-19 2019-03-05
#2 C           2019-01-07 2019-02-02
#3 A           2019-01-07 2019-02-19
#4 C           2019-01-12 2019-02-04
#5 B           2019-01-29 2019-02-07
#6 B           2019-01-29 2019-02-21

首先我们将其转换为长格式。然后将每个开始日期计算为递增，每个结束日期递减。然后我们按人口统计分组，并向上和向下计算这些增量的累计总数。

x %>%
  pivot_longer(-demographic, "col", values_to = "date") %>%
  mutate(change = if_else(col == "start", 1, -1)) %>%
  arrange(demographic, date) %>%
  group_by(demographic) %>%
  mutate(count = cumsum(change)) %>%
  ungroup() %>%

  ggplot(aes(date, count, color = demographic)) +
  geom_step()

Answer 3

这是 data.table 的选项。将 'data.frame' 转换为 'data.table'（setDT0，从 'start' 的 min 和 max 创建 seq 列22=] ，然后使用非相等连接与原始数据集连接并获取计数 (.N)

library(data.table)
setDT(x)[x[, .(eachday = seq(min(start), max(end), by = '1 day'))],
        .(eachday, overlap = .N), on = .(start <= eachday,
            end >= eachday ), by = .EACHI][, .(eachday, overlap)]
#       eachday overlap
#1: 2019-10-13       1
#2: 2019-10-14       2
#3: 2019-10-15       3
#4: 2019-10-16       2
#5: 2019-10-17       1

如何按天对时间间隔求和：给定的一天包括多少个间隔？

How to sum time intervals by days: How many intervals include a given day?

r

lubridate