如何一次合并 tidyr::pivot_longer 和 stringr::separate_rows
How to combine tidyr::pivot_longer with stringr::separate_rows in one shot
我正在尝试根据列名将数据从宽格式转换为长格式,我可以使用 tidyr::pivot_longer()
轻松完成。但是,我还需要以宽格式解构特定单元格的内容——即解析其中的字符串——并沿着旋转的(较长的)行分离解析的组件。虽然使用 stringr::separate_rows
可以轻松完成解析和分离任务,但我不知道如何在同一个镜头中结合旋转和分离过程。
数据
df <- data.frame(
id = 1:3,
blue_type1 = 110:112,
purple_type5 = 5:7,
black_type1 = 28:30,
batch_number = c("bgd | ddg | qwe",
"afp | qqw | edt",
"pqr | khp | rty")
)
df
## id blue_type1 purple_type5 black_type1 batch_number
## 1 1 110 5 28 bgd | ddg | qwe
## 2 2 111 6 29 afp | qqw | edt
## 3 3 112 7 30 pqr | khp | rty
我想要的
转换为长格式并解压缩batch_number
,这样第一个子字符串将分配给长格式的第一行,第二个子字符串分配给第二行,第三个子字符串分配给第三行。
期望的输出
## # A tibble: 9 x 5
## id batch_number color type vals
## <dbl> <chr> <chr> <dbl> <dbl>
## 1 1 bgd blue 1 110
## 2 1 ddg purple 5 5
## 3 1 qwe black 1 28
## 4 2 afp blue 1 111
## 5 2 qqw purple 5 6
## 6 2 edt black 1 29
## 7 3 pqr blue 1 112
## 8 3 khp purple 5 7
## 9 3 rty black 1 30
我的尝试
如果我只是 tidyr::pivot_longer
,我就成功了一半:
df %>%
pivot_longer(.,
-c(id, batch_number),
names_to = c("color", "type"),
names_pattern = "(.*)_type(.)",
values_to = "vals")
## # A tibble: 9 x 5
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd | ddg | qwe blue 1 110
## 2 1 bgd | ddg | qwe purple 5 5
## 3 1 bgd | ddg | qwe black 1 28
## 4 2 afp | qqw | edt blue 1 111
## 5 2 afp | qqw | edt purple 5 6
## 6 2 afp | qqw | edt black 1 29
## 7 3 pqr | khp | rty blue 1 112
## 8 3 pqr | khp | rty purple 5 7
## 9 3 pqr | khp | rty black 1 30
如果我尝试 stringr::separate_rows
最重要的是我得到了不需要的输出:
## # A tibble: 27 x 5
## # Groups: id [3]
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd blue 1 110
## 2 1 ddg blue 1 110
## 3 1 qwe blue 1 110
## 4 1 bgd purple 5 5
## 5 1 ddg purple 5 5
## 6 1 qwe purple 5 5
## 7 1 bgd black 1 28
## 8 1 ddg black 1 28
## 9 1 qwe black 1 28
## 10 2 afp blue 1 111
## 11 2 qqw blue 1 111
## 12 2 edt blue 1 111
## 13 2 afp purple 5 6
## 14 2 qqw purple 5 6
## 15 2 edt purple 5 6
## 16 2 afp black 1 29
## 17 2 qqw black 1 29
## 18 2 edt black 1 29
## 19 3 pqr blue 1 112
## 20 3 khp blue 1 112
## 21 3 rty blue 1 112
## 22 3 pqr purple 5 7
## 23 3 khp purple 5 7
## 24 3 rty purple 5 7
## 25 3 pqr black 1 30
## 26 3 khp black 1 30
## 27 3 rty black 1 30
如何将 separate_rows
的操作合并到 运行 pivot_longer
的操作中?有没有一种优雅的方法来完成这样的任务?基本上我正在寻找一个 tidyverse
解决方案,但也会对其他方法感到满意。
使用 tidyr
中的 separate_rows()
尝试此选项并使用顺序 ID:
library(tidyverse)
#Code
df <- df %>% separate_rows(batch_number,sep='\|') %>%
mutate(batch_number=trimws(batch_number)) %>%
group_by(id) %>% mutate(Val=1:n()) %>%
pivot_longer(-c(id,batch_number,Val)) %>%
separate(name,c('color','type'),sep='_') %>%
mutate(type=gsub('type','',type),Flag=ifelse(id==Val,1,0)) %>%
filter(Flag==1) %>% select(-c(Flag,Val))
输出:
# A tibble: 9 x 5
# Groups: id [3]
id batch_number color type value
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 bgd purple 5 5
3 1 bgd black 1 28
4 2 qqw blue 1 111
5 2 qqw purple 5 6
6 2 qqw black 1 29
7 3 rty blue 1 112
8 3 rty purple 5 7
9 3 rty black 1 30
也许有一个更短更优雅的解决方案,但同时你可以试试这个。基本思路是
- 在调用
tidyr::separate_rows
之前添加一个批处理标识符(batch
) (by id
)
- 在
tidyr::separate_rows
之后过滤 batch_number
和 batch
标识符相同的对象。对于最后一步,我首先使用 forcats::fct_inorder
将 batch_number
转换为一个因子,然后转换为一个数字,它给出了 batch_number
的位置,然后可以与 batch
标识符匹配
set.seed(42)
df <- data.frame(
id = 1:3,
blue_type1 = 110:112,
purple_type5 = 5:7,
black_type1 = 28:30,
batch_number = c("bgd | ddg | qwe",
"afp | qqw | edt",
"pqr | khp | rty")
)
library(dplyr)
library(tidyr)
library(forcats)
df %>%
pivot_longer(-c(id, batch_number)) %>%
group_by(id) %>%
mutate(batch = row_number()) %>%
separate_rows(batch_number) %>%
filter(batch == as.numeric(forcats::fct_inorder(batch_number)))
#> # A tibble: 9 x 5
#> # Groups: id [3]
#> id batch_number name value batch
#> <int> <chr> <chr> <int> <int>
#> 1 1 bgd blue_type1 110 1
#> 2 1 ddg purple_type5 5 2
#> 3 1 qwe black_type1 28 3
#> 4 2 afp blue_type1 111 1
#> 5 2 qqw purple_type5 6 2
#> 6 2 edt black_type1 29 3
#> 7 3 pqr blue_type1 112 1
#> 8 3 khp purple_type5 7 2
#> 9 3 rty black_type1 30 3
您可以在 mutate
中使用 separate_rows
和 pull
,在 pivot_longer
:
之后
df %>%
pivot_longer(-c(id, batch_number),
names_to = c("color", "type"),
names_pattern = "(.*)_type(.)",
values_to = "vals") %>%
mutate(batch_number =
df %>%
separate_rows(batch_number, sep = " \| ") %>%
pull(batch_number)
)
# A tibble: 9 x 5
id batch_number color type vals
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 ddg purple 5 5
3 1 qwe black 1 28
4 2 afp blue 1 111
5 2 qqw purple 5 6
6 2 edt black 1 29
7 3 pqr blue 1 112
8 3 khp purple 5 7
9 3 rty black 1 30
您可以在旋转后对 batch_number 中的字符串进行子集化。
library(dplyr)
library(tidyr)
library(stringr)
df %>%
group_by(id) %>%
mutate(batch_index = seq.int(1, n()*6, 6)) %>%
ungroup() %>%
mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2)) %>%
select(-batch_index)
# id batch_number color type vals
# <int> <chr> <chr> <chr> <int>
# 1 1 bgd blue 1 110
# 2 1 ddg purple 5 5
# 3 1 qwe black 1 28
# 4 2 afp blue 1 111
# 5 2 qqw purple 5 6
# 6 2 edt black 1 29
# 7 3 pqr blue 1 112
# 8 3 khp purple 5 7
# 9 3 rty black 1 30
请注意,mutate(batch_index = seq.int(1, n()*6, 6))
将名为 batch_index 的列添加到数据框(按 ID 分组)。在每一行中,batch_index 用于对 batch_number 中的字符串进行子集化。 batch_index 由 seq.int(1, n()*6, 6)
生成,由从 1 到 n()*6
的整数组成(即当前组中的行数乘以六 - 请注意,最终值不必是这个高的)。序列中的数字相隔六个: 1 , 7, 13 ...
mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2)
使用 batch_index 在每一行中对 batch_number 中的字符串进行子集化。组中的第一行需要来自 batch_number 的第一个子字符串 - 因此函数将 batch_number 从 batch_index(即 1)子集化为 batch_index+2(即 3)。组中的第二行需要来自 batch_number 的第二个子字符串 - 因此函数将 batch_number 从 batch_index(即 7)子集化为 batch_index+2(即 9)等。
如果 batch_number 中的所有子字符串都由三个字母组成,则此方法有效。
我正在尝试根据列名将数据从宽格式转换为长格式,我可以使用 tidyr::pivot_longer()
轻松完成。但是,我还需要以宽格式解构特定单元格的内容——即解析其中的字符串——并沿着旋转的(较长的)行分离解析的组件。虽然使用 stringr::separate_rows
可以轻松完成解析和分离任务,但我不知道如何在同一个镜头中结合旋转和分离过程。
数据
df <- data.frame(
id = 1:3,
blue_type1 = 110:112,
purple_type5 = 5:7,
black_type1 = 28:30,
batch_number = c("bgd | ddg | qwe",
"afp | qqw | edt",
"pqr | khp | rty")
)
df
## id blue_type1 purple_type5 black_type1 batch_number
## 1 1 110 5 28 bgd | ddg | qwe
## 2 2 111 6 29 afp | qqw | edt
## 3 3 112 7 30 pqr | khp | rty
我想要的
转换为长格式并解压缩batch_number
,这样第一个子字符串将分配给长格式的第一行,第二个子字符串分配给第二行,第三个子字符串分配给第三行。
期望的输出
## # A tibble: 9 x 5
## id batch_number color type vals
## <dbl> <chr> <chr> <dbl> <dbl>
## 1 1 bgd blue 1 110
## 2 1 ddg purple 5 5
## 3 1 qwe black 1 28
## 4 2 afp blue 1 111
## 5 2 qqw purple 5 6
## 6 2 edt black 1 29
## 7 3 pqr blue 1 112
## 8 3 khp purple 5 7
## 9 3 rty black 1 30
我的尝试
如果我只是 tidyr::pivot_longer
,我就成功了一半:
df %>%
pivot_longer(.,
-c(id, batch_number),
names_to = c("color", "type"),
names_pattern = "(.*)_type(.)",
values_to = "vals")
## # A tibble: 9 x 5
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd | ddg | qwe blue 1 110
## 2 1 bgd | ddg | qwe purple 5 5
## 3 1 bgd | ddg | qwe black 1 28
## 4 2 afp | qqw | edt blue 1 111
## 5 2 afp | qqw | edt purple 5 6
## 6 2 afp | qqw | edt black 1 29
## 7 3 pqr | khp | rty blue 1 112
## 8 3 pqr | khp | rty purple 5 7
## 9 3 pqr | khp | rty black 1 30
如果我尝试 stringr::separate_rows
最重要的是我得到了不需要的输出:
## # A tibble: 27 x 5
## # Groups: id [3]
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd blue 1 110
## 2 1 ddg blue 1 110
## 3 1 qwe blue 1 110
## 4 1 bgd purple 5 5
## 5 1 ddg purple 5 5
## 6 1 qwe purple 5 5
## 7 1 bgd black 1 28
## 8 1 ddg black 1 28
## 9 1 qwe black 1 28
## 10 2 afp blue 1 111
## 11 2 qqw blue 1 111
## 12 2 edt blue 1 111
## 13 2 afp purple 5 6
## 14 2 qqw purple 5 6
## 15 2 edt purple 5 6
## 16 2 afp black 1 29
## 17 2 qqw black 1 29
## 18 2 edt black 1 29
## 19 3 pqr blue 1 112
## 20 3 khp blue 1 112
## 21 3 rty blue 1 112
## 22 3 pqr purple 5 7
## 23 3 khp purple 5 7
## 24 3 rty purple 5 7
## 25 3 pqr black 1 30
## 26 3 khp black 1 30
## 27 3 rty black 1 30
如何将 separate_rows
的操作合并到 运行 pivot_longer
的操作中?有没有一种优雅的方法来完成这样的任务?基本上我正在寻找一个 tidyverse
解决方案,但也会对其他方法感到满意。
使用 tidyr
中的 separate_rows()
尝试此选项并使用顺序 ID:
library(tidyverse)
#Code
df <- df %>% separate_rows(batch_number,sep='\|') %>%
mutate(batch_number=trimws(batch_number)) %>%
group_by(id) %>% mutate(Val=1:n()) %>%
pivot_longer(-c(id,batch_number,Val)) %>%
separate(name,c('color','type'),sep='_') %>%
mutate(type=gsub('type','',type),Flag=ifelse(id==Val,1,0)) %>%
filter(Flag==1) %>% select(-c(Flag,Val))
输出:
# A tibble: 9 x 5
# Groups: id [3]
id batch_number color type value
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 bgd purple 5 5
3 1 bgd black 1 28
4 2 qqw blue 1 111
5 2 qqw purple 5 6
6 2 qqw black 1 29
7 3 rty blue 1 112
8 3 rty purple 5 7
9 3 rty black 1 30
也许有一个更短更优雅的解决方案,但同时你可以试试这个。基本思路是
- 在调用
tidyr::separate_rows
之前添加一个批处理标识符( - 在
tidyr::separate_rows
之后过滤batch_number
和batch
标识符相同的对象。对于最后一步,我首先使用forcats::fct_inorder
将batch_number
转换为一个因子,然后转换为一个数字,它给出了batch_number
的位置,然后可以与batch
标识符匹配
batch
) (by id
)
set.seed(42)
df <- data.frame(
id = 1:3,
blue_type1 = 110:112,
purple_type5 = 5:7,
black_type1 = 28:30,
batch_number = c("bgd | ddg | qwe",
"afp | qqw | edt",
"pqr | khp | rty")
)
library(dplyr)
library(tidyr)
library(forcats)
df %>%
pivot_longer(-c(id, batch_number)) %>%
group_by(id) %>%
mutate(batch = row_number()) %>%
separate_rows(batch_number) %>%
filter(batch == as.numeric(forcats::fct_inorder(batch_number)))
#> # A tibble: 9 x 5
#> # Groups: id [3]
#> id batch_number name value batch
#> <int> <chr> <chr> <int> <int>
#> 1 1 bgd blue_type1 110 1
#> 2 1 ddg purple_type5 5 2
#> 3 1 qwe black_type1 28 3
#> 4 2 afp blue_type1 111 1
#> 5 2 qqw purple_type5 6 2
#> 6 2 edt black_type1 29 3
#> 7 3 pqr blue_type1 112 1
#> 8 3 khp purple_type5 7 2
#> 9 3 rty black_type1 30 3
您可以在 mutate
中使用 separate_rows
和 pull
,在 pivot_longer
:
df %>%
pivot_longer(-c(id, batch_number),
names_to = c("color", "type"),
names_pattern = "(.*)_type(.)",
values_to = "vals") %>%
mutate(batch_number =
df %>%
separate_rows(batch_number, sep = " \| ") %>%
pull(batch_number)
)
# A tibble: 9 x 5
id batch_number color type vals
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 ddg purple 5 5
3 1 qwe black 1 28
4 2 afp blue 1 111
5 2 qqw purple 5 6
6 2 edt black 1 29
7 3 pqr blue 1 112
8 3 khp purple 5 7
9 3 rty black 1 30
您可以在旋转后对 batch_number 中的字符串进行子集化。
library(dplyr)
library(tidyr)
library(stringr)
df %>%
group_by(id) %>%
mutate(batch_index = seq.int(1, n()*6, 6)) %>%
ungroup() %>%
mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2)) %>%
select(-batch_index)
# id batch_number color type vals
# <int> <chr> <chr> <chr> <int>
# 1 1 bgd blue 1 110
# 2 1 ddg purple 5 5
# 3 1 qwe black 1 28
# 4 2 afp blue 1 111
# 5 2 qqw purple 5 6
# 6 2 edt black 1 29
# 7 3 pqr blue 1 112
# 8 3 khp purple 5 7
# 9 3 rty black 1 30
请注意,mutate(batch_index = seq.int(1, n()*6, 6))
将名为 batch_index 的列添加到数据框(按 ID 分组)。在每一行中,batch_index 用于对 batch_number 中的字符串进行子集化。 batch_index 由 seq.int(1, n()*6, 6)
生成,由从 1 到 n()*6
的整数组成(即当前组中的行数乘以六 - 请注意,最终值不必是这个高的)。序列中的数字相隔六个: 1 , 7, 13 ...
mutate(batch_number = str_sub(batch_number, batch_index, batch_index+2)
使用 batch_index 在每一行中对 batch_number 中的字符串进行子集化。组中的第一行需要来自 batch_number 的第一个子字符串 - 因此函数将 batch_number 从 batch_index(即 1)子集化为 batch_index+2(即 3)。组中的第二行需要来自 batch_number 的第二个子字符串 - 因此函数将 batch_number 从 batch_index(即 7)子集化为 batch_index+2(即 9)等。
如果 batch_number 中的所有子字符串都由三个字母组成,则此方法有效。