将 ID 分配给具有 NA 的列

Question

这一定很简单，但是我的脑子有问题！

我有这个数据框：

   col1 
   <chr>
 1 A    
 2 B    
 3 NA   
 4 C    
 5 D    
 6 NA   
 7 NA   
 8 E    
 9 NA   
10 F

df <- structure(list(col1 = c("A", "B", NA, "C", "D", NA, NA, "E", 
NA, "F")), row.names = c(NA, -10L), class = c("tbl_df", "tbl", 
"data.frame"))

我只想为不具有 tidyverse.

的值添加具有 uniqueID 的列

预期输出：

   col1  uniqueID
   <chr>    <dbl>
 1 A            1
 2 B            2
 3 NA          NA
 4 C            3
 5 D            4
 6 NA          NA
 7 NA          NA
 8 E            5
 9 NA          NA
10 F            6

我试过：n()、row_number()、cur_group_id ....

Answer 1

我们可以在 data.table 中轻松做到这一点。在 i 中指定条件，即 'col1' 中的非 NA 元素，通过赋值创建具有元素序列的列 'uniqueID' (:=)

library(data.table)
setDT(df)[!is.na(col1), uniqueID := seq_len(.N)]

-输出

df
    col1 uniqueID
 1:    A        1
 2:    B        2
 3: <NA>       NA
 4:    C        3
 5:    D        4
 6: <NA>       NA
 7: <NA>       NA
 8:    E        5
 9: <NA>       NA
10:    F        6

在dplyr中，我们可以使用replace

library(dplyr)
df %>%
     mutate(uniqueID = replace(col1, !is.na(col1), 
             seq_len(sum(!is.na(col1)))))

-输出

# A tibble: 10 x 2
   col1  uniqueID
   <chr> <chr>   
 1 A     1       
 2 B     2       
 3 <NA>  <NA>    
 4 C     3       
 5 D     4       
 6 <NA>  <NA>    
 7 <NA>  <NA>    
 8 E     5       
 9 <NA>  <NA>    
10 F     6

Answer 2

另一种方法：

library(dplyr)
df %>% 
  mutate(UniqueID = cumsum(!is.na(col1)), 
         UniqueID = if_else(is.na(col1), NA_integer_, UniqueID))

# A tibble: 10 x 2
   col1  UniqueID
   <chr>    <int>
 1 A            1
 2 B            2
 3 NA          NA
 4 C            3
 5 D            4
 6 NA          NA
 7 NA          NA
 8 E            5
 9 NA          NA
10 F            6

Answer 3

使用 match + na.omit + unique

的基础 R 选项

transform(
  df,
  uniqueID = match(col1, na.omit(unique(col1)))
)

给予

   col1 uniqueID
1     A        1
2     B        2
3  <NA>       NA
4     C        3
5     D        4
6  <NA>       NA
7  <NA>       NA
8     E        5
9  <NA>       NA
10    F        6

Answer 4

一个奇怪的tidyverse解决方案：

library(dplyr)

df %>%
  mutate(id = ifelse(is.na(col1), 0, 1),
         id = cumsum(id == 1), 
         id = ifelse(is.na(col1), NA, id))


# A tibble: 10 x 2
   col1     id
   <chr> <int>
 1 A         1
 2 B         2
 3 NA       NA
 4 C         3
 5 D         4
 6 NA       NA
 7 NA       NA
 8 E         5
 9 NA       NA
10 F         6

将 ID 分配给具有 NA 的列

Assign ID to column with NA's

r

na

dplyr

tidyverse