na.locf 将 NA 填充到 maxgap，即使 gap > maxgap，使用组

Question

我已经看到了这个问题的解决方案，但无法在群组中使用 (Fill NA in a time series only to a limited number)，并认为一定有更简洁的方法来做到这一点？

假设我有以下 dt:

dt <- data.table(ID = c(rep("A", 10), rep("B", 10)), Price = c(seq(1, 10, 1), seq(11, 20, 1)))
dt[c(1:2, 5:10), 2] <- NA 
dt[c(11:13, 15:19) ,2] <- NA 
dt
    ID Price
 1:  A    NA
 2:  A    NA
 3:  A     3
 4:  A     4
 5:  A    NA
 6:  A    NA
 7:  A    NA
 8:  A    NA
 9:  A    NA
10:  A    NA
11:  B    NA
12:  B    NA
13:  B    NA
14:  B    14
15:  B    NA
16:  B    NA
17:  B    NA
18:  B    NA
19:  B    NA
20:  B    20

我想做的是从最近的非 NA 值向前和向后填充 NAs ，但仅最多向前或向后两行。

我也需要按群（ID）完成

我曾尝试将 na.locf/na.approx 与 maxgap = x 等一起使用，但它不会填补 NAs 非 NA 之间的差距值大于 maxgap。而即使非 NA 值之间的差距大于 maxgap，我也想向前和向后填充这些，但只有两行。

最终结果应该类似于：

    ID Price Price_Fill
 1:  A    NA          3
 2:  A    NA          3
 3:  A     3          3
 4:  A     4          4
 5:  A    NA          4
 6:  A    NA          4
 7:  A    NA         NA
 8:  A    NA         NA
 9:  A    NA         NA
10:  A    NA         NA
11:  B    NA         NA
12:  B    NA         14
13:  B    NA         14
14:  B    14         14
15:  B    NA         14
16:  B    NA         14
17:  B    NA         NA
18:  B    NA         20
19:  B    NA         20
20:  B    20         20

实际上，我的数据集很大，我希望能够按组向前和向后填充最多 672 行，但不能再多了。

谢谢！

Answer 1

对于显示的示例，我们按 'ID' 分组，得到 'Price' 的 shift 和 n = 0:2，以及 type 作为 'lead' 创建 3 个临时列，从中获取 pmax，使用输出执行 shift 和 type = 'lag'（默认情况下它是 'lag'）和相同的 n, 获取 pmin 并将其分配为 'Price_Fill'

dt[, Price_Fill := do.call(pmin, c(shift(do.call(pmax, c(shift(Price, n = 0:2, 
                  type = "lead"), na.rm=TRUE)), n= 0:2), na.rm = TRUE)) , by = ID]
dt
#    ID Price Price_Fill
#1:  A    NA          3
#2:  A    NA          3
#3:  A     3          3
#4:  A     4          4
#5:  A    NA          4
#6:  A    NA          4
#7:  A    NA         NA
#8:  A    NA         NA
#9:  A    NA         NA
#10: A    NA         NA
#11: B    NA         NA
#12: B    NA         14
#13: B    NA         14
#14: B    14         14
#15: B    NA         14
#16: B    NA         14
#17: B    NA         NA
#18: B    NA         20
#19: B    NA         20
#20: B    20         20

更通用的方法是在 .I 上执行 pmin/pmax，因为 'Price' 可能不同，而不是 OP post 中显示的序列号.

i1 <- dt[,  do.call(pmin, c(shift(do.call(pmax, c(shift(NA^(is.na(Price))* 
    .I, n = 0:2, type = "lead"), na.rm = TRUE)), n = 0:2), na.rm = TRUE)), ID]$V1

dt$Price_Fill <  dt$Price[i1]
dt$Price_Fill
#[1]  3  3  3  4  4  4 NA NA NA NA NA 14 14 14 14 14 NA 20 20 20

即假设我们更改 'Price'，它会有所不同

dt$Price[3] <- 10
dt$Price[14] <- 7
dt$Price_Fill <- dt$Price[i1]
dt$Price_Fill
#[1] 10 10 10  4  4  4 NA NA NA NA NA  7  7  7  7  7 NA 20 20 20

na.locf 将 NA 填充到 maxgap，即使 gap > maxgap，使用组

na.locf fill NAs up to maxgap even if gap > maxgap, with groups

r

na

data.table