如何为数据框的子集重新编码多个变量？

Question

我迷路了，所以任何指示都会有所帮助。假设我有一个数据框：

df <- data.frame(
  id = 1:12,
  v1 = rep(c(1:4), 3),
  v2 = rep(c(1:3), 4),
  v3 = rep(c(1:6), 2),
  v4 = rep(c(1:2), 6))

我的目标是为变量 v3 和 v4 重新编码 2=4 和 4=2，但仅针对前 4 个案例 (id < 5)。我正在寻找适用于多达 20 个变量的解决方案。我知道如何进行基本的重新编码，但我没有看到在操作多个变量时实现子集条件的简单方法。

Answer 1

您可以在 dplyr

中尝试 mutate_at 和 case_when

library(dplyr)

df %>%
  mutate_at(vars(v3:v4), ~case_when(id < 5 & . == 4 ~ 2L, 
                                    id < 5 & . == 2 ~ 4L, 
                                    TRUE ~.))
#   id v1 v2 v3 v4
#1   1  1  1  1  1
#2   2  2  2  4  4
#3   3  3  3  3  1
#4   4  4  1  2  4
#5   5  1  2  5  1
#6   6  2  3  6  2
#7   7  3  1  1  1
#8   8  4  2  2  2
#9   9  1  3  3  1
#10 10  2  1  4  2
#11 11  3  2  5  1
#12 12  4  3  6  2

使用 mutate_at 您可以指定应用该函数的列范围。

Answer 2

这是一个基本的 R 解决方案，

df[1:5, c('v3', 'v4')] <- lapply(df[1:5, c('v3', 'v4')], function(i) 
                                       ifelse(i == 2, 4, ifelse(i == 4, 2, i)))

这给出了，

   id v1 v2 v3 v4
1   1  1  1  1  1
2   2  2  2  4  4
3   3  3  3  3  1
4   4  4  1  2  4
5   5  1  2  5  1
6   6  2  3  6  2
7   7  3  1  1  1
8   8  4  2  2  2
9   9  1  3  3  1
10 10  2  1  4  2
11 11  3  2  5  1
12 12  4  3  6  2

Answer 3

您可以使用 match 和查找 table - 在追逐中您必须退回两个以上的值。

rosetta <- matrix(c(2,4,4,2), 2)
df[1:4, c("v3", "v4")] <- lapply(df[1:4, c("v3", "v4")], function(x) {
  i <- match(x, rosetta[1,]); j <- !is.na(i); "[<-"(x, j, rosetta[2, i[j]])})
df
#   id v1 v2 v3 v4
#1   1  1  1  1  1
#2   2  2  2  4  4
#3   3  3  3  3  1
#4   4  4  1  2  4
#5   5  1  2  5  1
#6   6  2  3  6  2
#7   7  3  1  1  1
#8   8  4  2  2  2
#9   9  1  3  3  1
#10 10  2  1  4  2
#11 11  3  2  5  1
#12 12  4  3  6  2

也看看 or

Answer 4

另一个更直接的选项是获取要替换的数字的索引，并将它们替换为 6 减去数字 (6-4=2, 6-2=4):

whToChange <- which(df[1:5, c("v3", "v4")] ==2 | df[1:5, c("v3", "v4")]==4, arr.ind=TRUE)

df[, c("v3", "v4")][whToChange] <- 6-df[, c("v3", "v4")][whToChange]

head(df, 5)
#  id v1 v2 v3 v4
#1  1  1  1  1  1
#2  2  2  2  4  4
#3  3  3  3  3  1
#4  4  4  1  2  4
#5  5  1  2  5  1

如何为数据框的子集重新编码多个变量？

How to recode multiple variables for a subset of a dataframe?

r

dataframe

recode