在分组的时间序列中填充缺失的日期 - 一种整洁的方式？

Question

给定一个 data.frame，其中包含一个时间序列和一个或矿石分组字段。所以我们有几个时间序列 - 每个分组组合一个。但是缺少一些日期。那么，用正确的分组值添加这些日期最简单（就最多 "tidyverse way" 而言）是什么？

通常我会说我生成一个包含所有日期的 data.frame 并用我的时间序列做一个 full_join。但现在我们必须为分组值的每个组合执行此操作 -- 并填写分组值。

我们来看一个例子：

首先我创建一个 data.frame 缺少值：

library(dplyr)
library(lubridate)

set.seed(1234)
# Time series should run vom 2017-01-01 til 2017-01-10
date <- data.frame(date = seq.Date(from=ymd("2017-01-01"), to=ymd("2017-01-10"), by="days"), v = 1)
# Two grouping dimensions
d1   <- data.frame(d1 = c("A", "B", "C", "D"), v = 1)
d2   <- data.frame(d2 = c(1, 2, 3, 4, 5), v = 1)

# Generate the data.frame
df <- full_join(date, full_join(d1, d2)) %>%
  select(date, d1, d2) 
# and ad to value columns
df$v1 <- runif(200)
df$v2 <- runif(200)

# group by the dimension columns
df <- df %>% 
  group_by(d1, d2)

# create missing dates
df.missing <- df %>%
  filter(v1 <= 0.8)

# So now  2017-01-01 and 2017-01-10, A, 5 are missing now
df.missing %>%
  filter(d1 == "A" & d2 == 5)

# A tibble: 8 x 5
# Groups:   d1, d2 [1]
        date     d1    d2         v1        v2
      <date> <fctr> <dbl>      <dbl>     <dbl>
1 2017-01-02      A     5 0.21879954 0.1335497
2 2017-01-03      A     5 0.32977018 0.9802127
3 2017-01-04      A     5 0.23902573 0.1206089
4 2017-01-05      A     5 0.19617465 0.7378315
5 2017-01-06      A     5 0.13373890 0.9493668
6 2017-01-07      A     5 0.48613541 0.3392834
7 2017-01-08      A     5 0.35698708 0.3696965
8 2017-01-09      A     5 0.08498474 0.8354756

因此，为了添加缺失的日期，我生成了一个包含所有日期的 data.frame：

start <- min(df.missing$date)
end   <- max(df.missing$date)

all.dates <- data.frame(date=seq.Date(start, end, by="day"))

不，我想做类似的事情（记住：df.missing 是 group_by(d1, d2)）

df.missing %>%
  do(my_join())

所以让我们定义my_join():

my_join <- function(data) {
  # get value of both dimensions
  d1.set <- data$d1[[1]]
  d2.set <- data$d2[[1]]

  tmp <- full_join(data, all.dates) %>%
    # First we need to ungroup.  Otherwise we can't change d1 and d2 because they are grouping variables
    ungroup() %>%
    mutate(
      d1 = d1.set,
      d2 = d2.set 
    ) %>%
    group_by(d1, d2)

  return(tmp)
}

现在我们可以为每个组合调用 my_join() 并查看 "A/5"

df.missing %>%
  do(my_join(.)) %>%
  filter(d1 == "A" & d2 == 5)

# A tibble: 10 x 5
# Groups:   d1, d2 [1]
         date     d1    d2         v1        v2
       <date> <fctr> <dbl>      <dbl>     <dbl>
 1 2017-01-02      A     5 0.21879954 0.1335497
 2 2017-01-03      A     5 0.32977018 0.9802127
 3 2017-01-04      A     5 0.23902573 0.1206089
 4 2017-01-05      A     5 0.19617465 0.7378315
 5 2017-01-06      A     5 0.13373890 0.9493668
 6 2017-01-07      A     5 0.48613541 0.3392834
 7 2017-01-08      A     5 0.35698708 0.3696965
 8 2017-01-09      A     5 0.08498474 0.8354756
 9 2017-01-01      A     5         NA        NA
10 2017-01-10      A     5         NA        NA

太棒了！这就是我们要找的。但是我们需要在my_join中定义d1和d2，感觉有点笨拙。

那么，这个解决方案有什么tidyverse-way吗？

P.S.: 我把代码写成一个要点：https://gist.github.com/JerryWho/1bf919ef73792569eb38f6462c6d7a8e

Answer 1

这是一个从 df.missing

开始的整洁方法

library(tidyverse)
ans <- df.missing %>% 
          nest(date) %>% 
          mutate(data = map(data, ~seq.Date(start, end, by="day"))) %>% 
          unnest(data) %>%
          rename(date = data) %>%
          left_join(., df.missing, by=c("date","d1","d2"))

ans %>% filter(d1 == "A" & d2 == 5)

输出

      d1    d2       date         v1        v2
   <fctr> <dbl>     <date>      <dbl>     <dbl>
 1      A     5 2017-01-01         NA        NA
 2      A     5 2017-01-02 0.21879954 0.1335497
 3      A     5 2017-01-03 0.32977018 0.9802127
 4      A     5 2017-01-04 0.23902573 0.1206089
 5      A     5 2017-01-05 0.19617465 0.7378315
 6      A     5 2017-01-06 0.13373890 0.9493668
 7      A     5 2017-01-07 0.48613541 0.3392834
 8      A     5 2017-01-08 0.35698708 0.3696965
 9      A     5 2017-01-09 0.08498474 0.8354756
10      A     5 2017-01-10         NA        NA

---------------------------------------- ---------------------------------------------- ------
这是使用 expand.grid 和 dplyr 动词

的替代方法

with(df.missing, expand.grid(unique(date), unique(d1), unique(d2))) %>%
  setNames(c("date", "d1", "d2")) %>%
  left_join(., df.missing, by=c("date","d1","d2"))

输出（头部）

          date d1 d2          v1          v2
1   2017-01-01  A  1 0.113703411 0.660754634
2   2017-01-02  A  1 0.316612455 0.422330675
3   2017-01-03  A  1 0.553333591 0.424109178
4   2017-01-04  A  1          NA          NA
5   2017-01-05  A  1          NA          NA
6   2017-01-06  A  1 0.035456727 0.352998502

Answer 2

这里 read.zoo 创建了一个广泛形式的动物园对象，我们将日期合并到该对象中。然后我们使用 fortify.zoo 将其转换回长数据帧，并使用 spread 展开 v1 和 v2。

注意：

如果我们可以假设每个日期出现在至少一个拆分变量的组合中，即 sort(unique(df.missing$date)) 包含所有日期，那么我们可以省略 merge 行并且根本不需要进行任何连接。问题中显示的测试数据 df.missing 确实有这个属性:
```
all(all.dates$date %in% df.missing$date)
## [1] TRUE
```
我们可以在 merge 之后停止（或者在 read.zoo 之后，如果每个日期都像之前那样至少出现一次），如果可以使用宽形式的动物园对象因为已经有了所有的日期。

在zoo(1.8.1)开发版的代码中###行可以省略：

library(dplyr)
library(tidyr)
library(zoo)

split.vars <- c("d1", "d2")
df.missing %>%
   as.data.frame %>%     ###
   read.zoo(split = split.vars) %>%
   merge(zoo(, seq(start(.), end(.), "day"))) %>%
   fortify.zoo(melt = TRUE) %>%
   separate(Series, c("v", split.vars)) %>%
   spread(v, Value)

更新： zoo 1.8.1 中的笔记简化。

Answer 3

tidyr has some great tools for these sorts of problems. Take a look at complete.

library(dplyr)
library(tidyr)
library(lubridate)

want <- df.missing %>% 
  ungroup() %>%
  complete(nesting(d1, d2), date = seq(min(date), max(date), by = "day"))

want %>% filter(d1 == "A" & d2 == 5) 

#> # A tibble: 10 x 5
#>        d1    d2       date         v1        v2
#>    <fctr> <dbl>     <date>      <dbl>     <dbl>
#>  1      A     5 2017-01-01         NA        NA
#>  2      A     5 2017-01-02 0.21879954 0.1335497
#>  3      A     5 2017-01-03 0.32977018 0.9802127
#>  4      A     5 2017-01-04 0.23902573 0.1206089
#>  5      A     5 2017-01-05 0.19617465 0.7378315
#>  6      A     5 2017-01-06 0.13373890 0.9493668
#>  7      A     5 2017-01-07 0.48613541 0.3392834
#>  8      A     5 2017-01-08 0.35698708 0.3696965
#>  9      A     5 2017-01-09 0.08498474 0.8354756
#> 10      A     5 2017-01-10         NA        NA

Answer 4

包tsibble函数fill_gaps应该很容易完成这项工作。

library(tsibble)
df.missing %>% 
  # tsibble format
  as_tsibble(key = c(d1, d2), index = date) %>% 
  # fill gaps
  fill_gaps(.full = TRUE)

在分组的时间序列中填充缺失的日期 - 一种整洁的方式？

Filling missing dates in a grouped time series - a tidyverse-way?

r

time-series

dplyr

tidyverse