在许多列上使用 dplyr + gsub
Using dplyr + gsub on many columns
我正在使用 dplyr
和 gsub
来删除特殊字符。我正在尝试翻译我使用 base R 的代码。
这是一个类似于我的数据的假例子:
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
comunas = cbind(region,provincia,comuna)
这对我有用:
comunas = comunas %>%
mutate(comuna = gsub("\xe1", "\u00e1", comuna), # a with acute
comuna = gsub("<e1>", "\u00e1", comuna) # a with acute
)
但现在我想对每一列应用相同的内容:
comunas = comunas %>%
mutate_all(funs(gsub("\xe1", "\u00e1", .), # a with acute
gsub("<e1>", "\u00e1", .) # a with acute
))
而且我看到最后一块没有效果。思路是获取:
region provincia comuna
[1,] "regi\xf3n de tarapacá" "cami\xf1a" "tamarugal"
[2,] "regi\xf3n de tarapacá" "iquique" "alto hospicio"
以及任何其他需要的更改。
有什么想法吗?非常感谢!
2021年更新
mutate_all
现在替换为 across
。以下是在 dplyr
的帮助下跨多列使用 gsub
的两种方法:
library(dplyr)
#Without anonymous function
comunas_casen_2015 %>%
mutate(across(everything(), gsub, pattern = "\xe1|<e1>", replacement = "\u00e1"))
#With anonymous function
comunas_casen_2015 %>%
mutate(across(everything(),~ gsub("\xe1|<e1>","\u00e1", .)))
region provincia comuna
1 región de tarapacá camiña tamarugal
2 región de tarapacá iquique alto hospicio
#data
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
原回答
这对我有用:
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
comunas_casen_2015 = data.frame(region,provincia,comuna,stringsAsFactors=FALSE)
comunas_casen_2015 %>%
mutate(region = gsub("\xe1", "\u00e1", region), # a with acute
region = gsub("<e1>", "\u00e1", region) # a with acute
)
comunas_casen_2015 %>%
mutate_all(funs(gsub("\xe1", "\u00e1", .), # a with acute
gsub("<e1>", "\u00e1", .) # a with acute
))
region provincia comuna region_gsub provincia_gsub comuna_gsub
1 región de tarapacá camiña tamarugal región de tarapacá camiña tamarugal
2 región de tarapacá iquique alto hospicio región de tarapacá iquique alto hospicio
我正在使用 dplyr
和 gsub
来删除特殊字符。我正在尝试翻译我使用 base R 的代码。
这是一个类似于我的数据的假例子:
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
comunas = cbind(region,provincia,comuna)
这对我有用:
comunas = comunas %>%
mutate(comuna = gsub("\xe1", "\u00e1", comuna), # a with acute
comuna = gsub("<e1>", "\u00e1", comuna) # a with acute
)
但现在我想对每一列应用相同的内容:
comunas = comunas %>%
mutate_all(funs(gsub("\xe1", "\u00e1", .), # a with acute
gsub("<e1>", "\u00e1", .) # a with acute
))
而且我看到最后一块没有效果。思路是获取:
region provincia comuna
[1,] "regi\xf3n de tarapacá" "cami\xf1a" "tamarugal"
[2,] "regi\xf3n de tarapacá" "iquique" "alto hospicio"
以及任何其他需要的更改。
有什么想法吗?非常感谢!
2021年更新
mutate_all
现在替换为 across
。以下是在 dplyr
的帮助下跨多列使用 gsub
的两种方法:
library(dplyr)
#Without anonymous function
comunas_casen_2015 %>%
mutate(across(everything(), gsub, pattern = "\xe1|<e1>", replacement = "\u00e1"))
#With anonymous function
comunas_casen_2015 %>%
mutate(across(everything(),~ gsub("\xe1|<e1>","\u00e1", .)))
region provincia comuna
1 región de tarapacá camiña tamarugal
2 región de tarapacá iquique alto hospicio
#data
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
原回答
这对我有用:
region = c("regi\xf3n de tarapac\xe1","regi\xf3n de tarapac\xe1")
provincia = c("cami\xf1a","iquique")
comuna = c("tamarugal","alto hospicio")
comunas_casen_2015 = data.frame(region,provincia,comuna,stringsAsFactors=FALSE)
comunas_casen_2015 %>%
mutate(region = gsub("\xe1", "\u00e1", region), # a with acute
region = gsub("<e1>", "\u00e1", region) # a with acute
)
comunas_casen_2015 %>%
mutate_all(funs(gsub("\xe1", "\u00e1", .), # a with acute
gsub("<e1>", "\u00e1", .) # a with acute
))
region provincia comuna region_gsub provincia_gsub comuna_gsub
1 región de tarapacá camiña tamarugal región de tarapacá camiña tamarugal
2 región de tarapacá iquique alto hospicio región de tarapacá iquique alto hospicio