R函数过滤/子集（以编程方式）一个变量的多个值

Question

是否有一个函数需要一个数据集、一个列、一个运算符，但有多个值来评估一个条件？

v1 <- c(1:3)
v2 <- c("a", "b", "c")
df <- data.frame(v1, v2)

子集选项（以编程方式）

result <- df[df$v2 == "a" | df$v2 == "b", ]
result
1  1  a
2  2  b

或者，为了更稳健

result1 <- df[ df[[2]] == "a" | df[[2]] == "b", ]
result1
  v1 v2
1  1  a
2  2  b

或者，为了更简单的语法：

library(dplyr)
result2 <- filter(df, v2 == "a" | v2 == "b")
result2
  v1 v2
1  1  a
2  2  b

（我可以假设我可以在函数内安全地使用 dplyr 的 filter() 吗？ )

我没有在上面包含 subset()，因为众所周知它仅供交互使用。

在上述所有情况下，都必须重复条件(v2 == "a" | v2 == "b")。

我正在寻找一个可以将向量传递给参数的函数，例如 c("a", "b")，因为我想传递大量值，并使过程自动化。

这样的函数可能是这样的：

fun(df, col = v2, operator = "|", value = c("a", "b")

谢谢

Answer 1

如果要检查的元素数量超过 1，我们可以使用 %in%。

df[df$v2 %in% c('a', 'b'),]
#   v1 v2
#1  1  a
#2  2  b

或者如果我们使用subset，则可以删除df$

subset(df, v2 %in% c('a', 'b'))

或者dplyr::filter

filter(df, v2 %in% c('a', 'b'))

这可以包装在一个函数中

f1 <- function(dat, col, val){
 filter(dat, col %in%  val)
 }

f1(df, v2, c('a', 'b'))
#  v1 v2
#1  1  a
#2  2  b

如果我们需要使用 ==，我们可以循环 vector 以在 list 中进行比较，然后使用 Reduce 和 |

df[Reduce(`|`, lapply(letters[1:2], `==`, df$v2)),]

R function to filter / subset (programatically) multiple values over one variable