在 R 分组 df 中插入指定值并使用另一个 df (R) 填充缺失值

Question

我有 2 个 dfs：df & xdf.

df <- tibble(id = c("a", "a", "a", "a", "b", "b", "b", "b"),
             x = c(1, 2, 3, 4, 1, 2, 3, 4),
             y = c(0.2, 0, 0.9, 7, 1, 0.3, 5, 5.1))

xdf <- tibble(id = c("a", "b"),
              x = c(2, 3.5))

在 df 中，在 "id" 列中，对于组 (a & b)，我只想插入 xdf 的那一行 匹配与 df 中相同的 id 名称。我怎样才能做到？我尝试了以下命令，但为每个组插入了 xdf$x 的所有值。

ndf <- df %>%
  group_by(id) %>% 
  do(add_row(., id = .$id[1], x = xdf$x))

> ndf
# A tibble: 12 x 3
# Groups:   id [2]
   id        x     y
   <chr> <dbl> <dbl>
 1 a       1     0.2
 2 a       2     0  
 3 a       3     0.9
 4 a       4     7  
 5 a       2    NA  
 6 a       3.5  NA  
 7 b       1     1  
 8 b       2     0.3
 9 b       3     5  
10 b       4     5.1
11 b       2    NA  
12 b       3.5  NA

# expected result should be : ndf <- ndf[c(-6,-11),]

我的最终目标是用 approx() 函数填充 ndf 的这些新生儿 NA。但我的问题仍然存在，因为我正在使用 xout = xdf$x 调用多余的值。我怎样才能克服这个？你能帮忙写一个让xout变化的函数吗？

f <- function(z) 
{
  fdf <- approx(z$x, z$y, xout = xdf$x, method = "linear")
  return(data.frame(nx= fdf$x, y.out = fdf$y, id = unique(z$id)))
}

jdf <- as.data.frame(ddply(ndf, .(id),  f))
zdf <- subset(jdf, select = c(id, nx, y.out))

> zdf
  id  nx y.out
1  a 2.0  0.00
2  a 3.5  3.95
3  b 2.0  0.30
4  b 3.5  5.05

# expected results
  id  nx y.out
1  a 2.0  0.00
2  b 3.5  5.05

欢迎提供任何有用的提示。非常感谢！

Answer 1

library(dplyr)

df <- tibble(id = c("a", "a", "a", "a", "b", "b", "b", "b"),
             x = c(1, 2, 3, 4, 1, 2, 3, 4),
             y = c(0.2, 0, 0.9, 7, 1, 0.3, 5, 5.1))

xdf <- tibble(id = c("a", "b"),
              x = c(2, 3.5))

ndf <- df %>%
  bind_rows(xdf) %>% 
  arrange(id)

zdf <- ndf %>%
  group_by(id) %>%
    group_modify(~mutate(., y_approx = approx(.$x, .$y, .$x, method = "linear")[["y"]])) %>%
    ungroup() %>%
  filter(is.na(y)) %>%
  select(id, y_approx)

在 R 分组 df 中插入指定值并使用另一个 df (R) 填充缺失值

Insert specified values in R grouped df and fill up missing values using another df (R)

interpolation

r

function

dataframe

dplyr