用向量中的随机数替换字符串

Replacing a string with a random number from vector

我有一个数据框,其中包含每门课程的学生成绩。但是,这些成绩采用 A-F 格式,需要转换为数字成绩 (10-1)。为此,我生成了代表这些 A-F 值的随机数。

A <- rnorm(nrow(Student_Data), 9.45, 0.2)
B <- rnorm(nrow(Student_Data), 7.95, 0.2)
C <- rnorm(nrow(Student_Data), 6.25, 0.2)
D <- rnorm(nrow(Student_Data), 4.75, 0.2)
F <- rnorm(nrow(Student_Data), 2, 0.2)

我还创建了一个函数,可以用数字替换字母

courseGradesNumeric <- data.frame(lapply(courseGrades, function(x) {gsub("A", sample(A, 1), gsub("B", sample(B, 1), gsub("C", sample(C, 1), gsub("D", sample(D, 1), gsub("F", sample(F, 1), x)))))}))

这很好用,但问题是,如果列中有 "A"(或任何其他字母),则此特定列中的 A 将替换为 [=16 中的随机数=] 在整个列中都是相同的。

举例说明:

当前数据框(暂时忽略 NA)

Student_ID       ABC1000_Grade   ABC1003_Grade 
1    9000006           A              B          
2    9000014           A              A          
3    9000028           B              C          
4    9000045          <NA>           <NA>          
5    9000080           C             <NA>          
6    9000091          <NA>           <NA> 

问题:

Student_ID       ABC1000_Grade   ABC1003_Grade 
1    9000006        9.335523      8.231295          
2    9000014        9.335523      9.462468          
3    9000028        7.972959      6.394259          
4    9000045          <NA>           <NA>          
5    9000080        6.257297         <NA>          
6    9000091          <NA>           <NA> 

在 ABC1000_Grade 列中,A 被替换为在前面的步骤中生成的相同随机数。

如何确保所有替换值都是不同的随机数?因此,首选结果应该是:

Student_ID       ABC1000_Grade   ABC1003_Grade 
1    9000006        9.510445      8.231295          
2    9000014        9.335523      9.462468          
3    9000028        7.972959      6.394259          
4    9000045          <NA>           <NA>          
5    9000080        6.257297         <NA>          
6    9000091          <NA>           <NA> 

在您的代码中,您正在生成一个随机值来替换任何给定的成绩,这就是您获得相同值的原因。

这是使用 base::switch()sapply 以及最后的 dplyr 包一次性修改所有以 "Grade" 结尾的列来获得所需结果的更简单方法 -

library(dplyr)

replace_grade <- function(g) {
  sapply(g, function(a) {
    switch(a,
         "A" = rnorm(1, 9.45, 0.2),
         "B" = rnorm(1, 7.95, 0.2),
         "C" = rnorm(1, 6.25, 0.2),
         "D" = rnorm(1, 4.75, 0.2),
         "F" = rnorm(1, 2, 0.2),
         NA_real_
         )
  })
}

# function output for illustration
replace_grade(g = c("A", "B", "C", "D", "F", NA_character_))
       A        B        C        D        F     <NA> 
9.229176 7.830536 6.239904 4.643644 2.146621       NA 

# apply function to every column ending with "Grade"
df %>% 
  mutate_at(vars(ends_with("Grade")), replace_grade)

  Student_ID ABC1000_Grade ABC1003_Grade
1    9000006      9.243239      7.946469
2    9000014      9.623083      9.072896
3    9000028      8.308868      6.177990
4    9000045            NA            NA
5    9000080      6.336819            NA
6    9000091            NA            NA

数据-

df <- read.table(text = "Student_ID ABC1000_Grade   ABC1003_Grade
9000006 A   B
9000014 A   A
9000028 B   C
9000045 <NA>    <NA>
9000080 C   <NA>
9000091 <NA>    <NA>
", header= T, sep = "\t", stringsAsFactors = F)

一个基本的 R 版本,我们在其中创建一个命名列表,其中包含每个年级的可能值,并根据列中的值提取一个随机变量。

Student_Data[-1] <- sapply(unlist(Student_Data[-1]), 
                    function(x) if (is.na(x)) NA else sample(lst[[x]], 1))

Student_Data
#  Student_ID ABC1000_Grade ABC1003_Grade
#1    9000006      9.847739      7.689222
#2    9000014      9.605831      9.689179
#3    9000028      7.658435      6.244390
#4    9000045            NA            NA
#5    9000080      6.116549            NA
#6    9000091            NA            NA

确保成绩存储为字符而不是因素。

其中 lst

lst <- list(A = rnorm(nrow(Student_Data), 9.45, 0.2), 
            B = rnorm(nrow(Student_Data), 7.95, 0.2), 
            C = rnorm(nrow(Student_Data), 6.25, 0.2), 
            D = rnorm(nrow(Student_Data), 4.75, 0.2), 
            F = rnorm(nrow(Student_Data), 2, 0.2))