如何一次合并 tidyr::pivot_longer 和 stringr::separate_rows

How to combine tidyr::pivot_longer with stringr::separate_rows in one shot

我正在尝试根据列名将数据从宽格式转换为长格式,我可以使用 tidyr::pivot_longer() 轻松完成。但是,我还需要以宽格式解构特定单元格的内容——即解析其中的字符串——并沿着旋转的(较长的)行分离解析的组件。虽然使用 stringr::separate_rows 可以轻松完成解析和分离任务,但我不知道如何在同一个镜头中结合旋转和分离过程。

数据

df <- data.frame(
  id = 1:3,
  blue_type1 = 110:112,
  purple_type5 = 5:7,
  black_type1 = 28:30,
  batch_number = c("bgd | ddg | qwe",
                   "afp | qqw | edt",
                   "pqr | khp | rty")
  )

df

##   id blue_type1 purple_type5 black_type1    batch_number
## 1  1        110            5          28 bgd | ddg | qwe
## 2  2        111            6          29 afp | qqw | edt
## 3  3        112            7          30 pqr | khp | rty

我想要的

转换为长格式并解压缩batch_number,这样第一个子字符串将分配给长格式的第一行,第二个子字符串分配给第二行,第三个子字符串分配给第三行。

期望的输出

## # A tibble: 9 x 5
##      id batch_number color   type  vals
##   <dbl> <chr>        <chr>  <dbl> <dbl>
## 1     1 bgd          blue       1   110
## 2     1 ddg          purple     5     5
## 3     1 qwe          black      1    28
## 4     2 afp          blue       1   111
## 5     2 qqw          purple     5     6
## 6     2 edt          black      1    29
## 7     3 pqr          blue       1   112
## 8     3 khp          purple     5     7
## 9     3 rty          black      1    30

我的尝试

如果我只是 tidyr::pivot_longer,我就成功了一半:

df %>% 
  pivot_longer(., 
               -c(id, batch_number), 
               names_to = c("color", "type"), 
               names_pattern = "(.*)_type(.)", 
               values_to = "vals")

## # A tibble: 9 x 5
##      id batch_number    color  type   vals
##   <int> <chr>           <chr>  <chr> <int>
## 1     1 bgd | ddg | qwe blue   1       110
## 2     1 bgd | ddg | qwe purple 5         5
## 3     1 bgd | ddg | qwe black  1        28
## 4     2 afp | qqw | edt blue   1       111
## 5     2 afp | qqw | edt purple 5         6
## 6     2 afp | qqw | edt black  1        29
## 7     3 pqr | khp | rty blue   1       112
## 8     3 pqr | khp | rty purple 5         7
## 9     3 pqr | khp | rty black  1        30

如果我尝试 stringr::separate_rows 最重要的是我得到了不需要的输出:

## # A tibble: 27 x 5
## # Groups:   id [3]
##       id batch_number color  type   vals
##    <int> <chr>        <chr>  <chr> <int>
##  1     1 bgd          blue   1       110
##  2     1 ddg          blue   1       110
##  3     1 qwe          blue   1       110
##  4     1 bgd          purple 5         5
##  5     1 ddg          purple 5         5
##  6     1 qwe          purple 5         5
##  7     1 bgd          black  1        28
##  8     1 ddg          black  1        28
##  9     1 qwe          black  1        28
## 10     2 afp          blue   1       111
## 11     2 qqw          blue   1       111
## 12     2 edt          blue   1       111
## 13     2 afp          purple 5         6
## 14     2 qqw          purple 5         6
## 15     2 edt          purple 5         6
## 16     2 afp          black  1        29
## 17     2 qqw          black  1        29
## 18     2 edt          black  1        29
## 19     3 pqr          blue   1       112
## 20     3 khp          blue   1       112
## 21     3 rty          blue   1       112
## 22     3 pqr          purple 5         7
## 23     3 khp          purple 5         7
## 24     3 rty          purple 5         7
## 25     3 pqr          black  1        30
## 26     3 khp          black  1        30
## 27     3 rty          black  1        30

如何将 separate_rows 的操作合并到 运行 pivot_longer 的操作中?有没有一种优雅的方法来完成这样的任务?基本上我正在寻找一个 tidyverse 解决方案,但也会对其他方法感到满意。

使用 tidyr 中的 separate_rows() 尝试此选项并使用顺序 ID:

library(tidyverse)
#Code
df <- df %>% separate_rows(batch_number,sep='\|') %>%
  mutate(batch_number=trimws(batch_number)) %>%
  group_by(id) %>% mutate(Val=1:n()) %>%
  pivot_longer(-c(id,batch_number,Val)) %>%
  separate(name,c('color','type'),sep='_') %>%
  mutate(type=gsub('type','',type),Flag=ifelse(id==Val,1,0)) %>%
  filter(Flag==1) %>% select(-c(Flag,Val))

输出:

# A tibble: 9 x 5
# Groups:   id [3]
     id batch_number color  type  value
  <int> <chr>        <chr>  <chr> <int>
1     1 bgd          blue   1       110
2     1 bgd          purple 5         5
3     1 bgd          black  1        28
4     2 qqw          blue   1       111
5     2 qqw          purple 5         6
6     2 qqw          black  1        29
7     3 rty          blue   1       112
8     3 rty          purple 5         7
9     3 rty          black  1        30

也许有一个更短更优雅的解决方案,但同时你可以试试这个。基本思路是

  1. 在调用tidyr::separate_rows
  2. 之前添加一个批处理标识符(batch) (by id)
  3. tidyr::separate_rows 之后过滤 batch_numberbatch 标识符相同的对象。对于最后一步,我首先使用 forcats::fct_inorderbatch_number 转换为一个因子,然后转换为一个数字,它给出了 batch_number 的位置,然后可以与 batch 标识符匹配
set.seed(42)

df <- data.frame(
  id = 1:3,
  blue_type1 = 110:112,
  purple_type5 = 5:7,
  black_type1 = 28:30,
  batch_number = c("bgd | ddg | qwe",
                   "afp | qqw | edt",
                   "pqr | khp | rty")
)
library(dplyr)
library(tidyr)
library(forcats)

df %>% 
  pivot_longer(-c(id, batch_number)) %>% 
  group_by(id) %>% 
  mutate(batch = row_number()) %>% 
  separate_rows(batch_number) %>% 
  filter(batch == as.numeric(forcats::fct_inorder(batch_number)))
#> # A tibble: 9 x 5
#> # Groups:   id [3]
#>      id batch_number name         value batch
#>   <int> <chr>        <chr>        <int> <int>
#> 1     1 bgd          blue_type1     110     1
#> 2     1 ddg          purple_type5     5     2
#> 3     1 qwe          black_type1     28     3
#> 4     2 afp          blue_type1     111     1
#> 5     2 qqw          purple_type5     6     2
#> 6     2 edt          black_type1     29     3
#> 7     3 pqr          blue_type1     112     1
#> 8     3 khp          purple_type5     7     2
#> 9     3 rty          black_type1     30     3

您可以在 mutate 中使用 separate_rowspull,在 pivot_longer:

之后
df %>% 
  pivot_longer(-c(id, batch_number), 
               names_to = c("color", "type"), 
               names_pattern = "(.*)_type(.)", 
               values_to = "vals") %>%
  mutate(batch_number = 
           df %>% 
           separate_rows(batch_number, sep = " \| ") %>% 
           pull(batch_number)
         ) 

# A tibble: 9 x 5
     id batch_number color  type   vals
  <int> <chr>        <chr>  <chr> <int>
1     1 bgd          blue   1       110
2     1 ddg          purple 5         5
3     1 qwe          black  1        28
4     2 afp          blue   1       111
5     2 qqw          purple 5         6
6     2 edt          black  1        29
7     3 pqr          blue   1       112
8     3 khp          purple 5         7
9     3 rty          black  1        30

您可以在旋转后对 batch_number 中的字符串进行子集化。

library(dplyr)
library(tidyr)
library(stringr)

df %>%
  group_by(id) %>%
  mutate(batch_index = seq.int(1, n()*6, 6)) %>%
  ungroup() %>%
  mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2)) %>%
  select(-batch_index)

#      id batch_number color  type   vals
#   <int> <chr>        <chr>  <chr> <int>
# 1     1 bgd          blue   1       110
# 2     1 ddg          purple 5         5
# 3     1 qwe          black  1        28
# 4     2 afp          blue   1       111
# 5     2 qqw          purple 5         6
# 6     2 edt          black  1        29
# 7     3 pqr          blue   1       112
# 8     3 khp          purple 5         7
# 9     3 rty          black  1        30

请注意,mutate(batch_index = seq.int(1, n()*6, 6)) 将名为 batch_index 的列添加到数据框(按 ID 分组)。在每一行中,batch_index 用于对 batch_number 中的字符串进行子集化。 batch_index 由 seq.int(1, n()*6, 6) 生成,由从 1 到 n()*6 的整数组成(即当前组中的行数乘以六 - 请注意,最终值不必是这个高的)。序列中的数字相隔六个: 1 , 7, 13 ...

mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2) 使用 batch_index 在每一行中对 batch_number 中的字符串进行子集化。组中的第一行需要来自 batch_number 的第一个子字符串 - 因此函数将 batch_number 从 batch_index(即 1)子集化为 batch_index+2(即 3)。组中的第二行需要来自 batch_number 的第二个子字符串 - 因此函数将 batch_number 从 batch_index(即 7)子集化为 batch_index+2(即 9)等。

如果 batch_number 中的所有子字符串都由三个字母组成,则此方法有效。