根据其他数据帧映射替换某些行中的值
Replace values in some rows based on other dataframe mapping
我有一个 table (d.tab
),其中包含调查中的问答对。其中一些是单选答案,一些是多项选择。我想从它的数值中查找单选答案的文本值。为此,我查找了 table (d.lookup
).
我尝试 merge
这些,但是有点难看,因为我现在必须过滤掉 value != answer_id
所在的所有行。有没有更漂亮的方法,可能使用 plyr
或 dplyr
或 tidyr
?
tab = '
question_id question_type subject value
1 single-choice 1 1
2 multiple-choice 1 2
3 single-choice 1 2
1 single-choice 2 2
2 multiple-choice 2 3,4
3 single-choice 2 2
'
lookup = '
question_id answer_id answer_text
1 1 female
1 2 male
3 1 no
3 2 yes
'
d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)
merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)
我不想对 multiple-choice
行做任何事情,只是更新原始数据框以将 value
替换为 d.tab
的 answer_text
中的实际文本] 如果 answer_id
匹配 value
.
我知道我能做到:
merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)
但这给了我一个新的列 answer_text
,原来的 value
仍然存在,我不需要。
你的问题中 merge()
的调用是正确的。剩下的就是过滤具有单选答案的行和 select 除了 value
之外的所有列。使用 dplyr,可以按如下方式完成:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
merge(d.lookup, by.x = c("question_id", "value"),
by.y = c("question_id", "answer_id")) %>%
select(-value)
第二行包含因子变量 value
到数值的显式转换。这很重要,因为将因子转换为数值会导致奇怪的结果。我将在下面添加有关此主题的几行内容。
注意 dplyr
也有自己的功能来代替合并。如果您的 table 很大,您会注意到这些更有效。使用 dplyr
中的 left_join
解决方案如下:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
left_join(d.lookup,
by = c("question_id" = "question_id",
"value" = "answer_id")) %>%
select(-value)
所以关于我承诺的因素的评论来了。因子的问题在于它们实际上是整数,其中每个整数值都有一个与之关联的标签。当您使用 as.numeric()
天真地将因子转换为数字时,您将获得与标签关联的整数。您几乎肯定会 运行 遇到这个数据问题,原因如下。
我创建了一个模拟您的数据的因子变量:
values <- factor(c("1", "2", "3,4", "3", "4"))
现在我扔掉第三个值("3,4"
)并转换为数字:
as.numeric(values[-3])
## [1] 1 2 3 5
这可能不是您所期望的。原因是数字 1 到 5 与我们上面定义的五个级别相关联。如果要得到与标签匹配的数字,需要先转换为字符:
as.numeric(as.character(values[-3]))
## [1] 1 2 3 4
因此,即使 merge()
在某处将因子转换为数字,我也不会依赖它以您想要的方式进行。因此,您应该明确地进行转换。
另一种解决方案 data.table:
library(data.table)
# converting to datatables & setting the 'answer_id' to character
setDT(d.tab)
setDT(d.lookup)[, answer_id := as.character(answer_id)]
# join 'd.tab' with 'd.lookup' and update 'value' by reference
d.tab[d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")]
给出:
question_id question_type subject value
1: 1 single-choice 1 female
2: 2 multiple-choice 1 2
3: 3 single-choice 1 yes
4: 1 single-choice 2 male
5: 2 multiple-choice 2 3,4
6: 3 single-choice 2 yes
正如@Stibu 已经提到的,拆分具有多个值的行可能会更好。来自 splitstackshape 包的 cSplit
函数的示例:
library(splitstackshape)
cSplit(d.tab, "value", sep=",",
direction="long",
type.convert = FALSE)[d.lookup,
value := answer_text,
on = c("question_id", "value"="answer_id")]
# or everything in 'data.table'
d.tab[, lapply(.SD, function(x) unlist(tstrsplit(x, ','))), setdiff(names(d.tab),"value")
][d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")][]
两者都给出:
question_id question_type subject value
1: 1 single-choice 1 female
2: 2 multiple-choice 1 2
3: 3 single-choice 1 yes
4: 1 single-choice 2 male
5: 2 multiple-choice 2 3
6: 2 multiple-choice 2 4
7: 3 single-choice 2 yes
我有一个 table (d.tab
),其中包含调查中的问答对。其中一些是单选答案,一些是多项选择。我想从它的数值中查找单选答案的文本值。为此,我查找了 table (d.lookup
).
我尝试 merge
这些,但是有点难看,因为我现在必须过滤掉 value != answer_id
所在的所有行。有没有更漂亮的方法,可能使用 plyr
或 dplyr
或 tidyr
?
tab = '
question_id question_type subject value
1 single-choice 1 1
2 multiple-choice 1 2
3 single-choice 1 2
1 single-choice 2 2
2 multiple-choice 2 3,4
3 single-choice 2 2
'
lookup = '
question_id answer_id answer_text
1 1 female
1 2 male
3 1 no
3 2 yes
'
d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)
merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)
我不想对 multiple-choice
行做任何事情,只是更新原始数据框以将 value
替换为 d.tab
的 answer_text
中的实际文本] 如果 answer_id
匹配 value
.
我知道我能做到:
merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)
但这给了我一个新的列 answer_text
,原来的 value
仍然存在,我不需要。
你的问题中 merge()
的调用是正确的。剩下的就是过滤具有单选答案的行和 select 除了 value
之外的所有列。使用 dplyr,可以按如下方式完成:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
merge(d.lookup, by.x = c("question_id", "value"),
by.y = c("question_id", "answer_id")) %>%
select(-value)
第二行包含因子变量 value
到数值的显式转换。这很重要,因为将因子转换为数值会导致奇怪的结果。我将在下面添加有关此主题的几行内容。
注意 dplyr
也有自己的功能来代替合并。如果您的 table 很大,您会注意到这些更有效。使用 dplyr
中的 left_join
解决方案如下:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
left_join(d.lookup,
by = c("question_id" = "question_id",
"value" = "answer_id")) %>%
select(-value)
所以关于我承诺的因素的评论来了。因子的问题在于它们实际上是整数,其中每个整数值都有一个与之关联的标签。当您使用 as.numeric()
天真地将因子转换为数字时,您将获得与标签关联的整数。您几乎肯定会 运行 遇到这个数据问题,原因如下。
我创建了一个模拟您的数据的因子变量:
values <- factor(c("1", "2", "3,4", "3", "4"))
现在我扔掉第三个值("3,4"
)并转换为数字:
as.numeric(values[-3])
## [1] 1 2 3 5
这可能不是您所期望的。原因是数字 1 到 5 与我们上面定义的五个级别相关联。如果要得到与标签匹配的数字,需要先转换为字符:
as.numeric(as.character(values[-3]))
## [1] 1 2 3 4
因此,即使 merge()
在某处将因子转换为数字,我也不会依赖它以您想要的方式进行。因此,您应该明确地进行转换。
另一种解决方案 data.table:
library(data.table)
# converting to datatables & setting the 'answer_id' to character
setDT(d.tab)
setDT(d.lookup)[, answer_id := as.character(answer_id)]
# join 'd.tab' with 'd.lookup' and update 'value' by reference
d.tab[d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")]
给出:
question_id question_type subject value
1: 1 single-choice 1 female
2: 2 multiple-choice 1 2
3: 3 single-choice 1 yes
4: 1 single-choice 2 male
5: 2 multiple-choice 2 3,4
6: 3 single-choice 2 yes
正如@Stibu 已经提到的,拆分具有多个值的行可能会更好。来自 splitstackshape 包的 cSplit
函数的示例:
library(splitstackshape)
cSplit(d.tab, "value", sep=",",
direction="long",
type.convert = FALSE)[d.lookup,
value := answer_text,
on = c("question_id", "value"="answer_id")]
# or everything in 'data.table'
d.tab[, lapply(.SD, function(x) unlist(tstrsplit(x, ','))), setdiff(names(d.tab),"value")
][d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")][]
两者都给出:
question_id question_type subject value
1: 1 single-choice 1 female
2: 2 multiple-choice 1 2
3: 3 single-choice 1 yes
4: 1 single-choice 2 male
5: 2 multiple-choice 2 3
6: 2 multiple-choice 2 4
7: 3 single-choice 2 yes