根据长度重新编码变量
Recode variable based on length
我有一个大的 dataframe
,结构如下:
id v1 v2 v3 v4 v5
1 1 1 98 1 1
2 1 1 1 1 1
3 4 1 0 22 1
4 5 1 1 1 1
5 1 1 90 1 1
我想从 v2
一直移动到 v5
,如果变量值的长度大于 1 个字符,那么它会被重新编码为 9,因此结果 df
将是:
id v1 v2 v3 v4 v5
1 1 1 9 1 1
2 1 1 1 1 1
3 4 1 0 9 1
4 5 1 1 1 1
5 1 1 9 1 1
- 注意:所有变量都存储为字符串,这就是为什么我希望将长度作为答案的一部分。
如果这是一个大 dataframe
,使用 data.table
库,您可以:
Reprex
- 代码
library(data.table)
cols <- paste0("v", 2:5)
setDT(df)[, (cols) := lapply(.SD, function(x) fifelse(nchar(x) > 1, 9, x)), .SDcols = cols][]
- 输出
#> id v1 v2 v3 v4 v5
#> 1: 1 1 1 9 1 1
#> 2: 2 1 1 1 1 1
#> 3: 3 4 1 0 9 1
#> 4: 4 5 1 1 1 1
#> 5: 5 1 1 9 1 1
由 reprex package (v2.0.1)
于 2022 年 3 月 14 日创建
编辑:
dplyr
解决方案
- 代码
library(dplyr)
df %>% mutate(across(v2:v5, ~ ifelse(nchar(.x) > 1, 9, .x)))
- 输出
#> id v1 v2 v3 v4 v5
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
基础 R 解决方案
- 代码
cols <- paste0("v", 2:5)
df[, cols] <- apply(df[, cols], c(1,2), function(x) ifelse(nchar(x) > 1, 9, x))
- 输出
df
#> id v1 v2 v3 v4 v5
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
由 reprex package (v2.0.1)
于 2022 年 3 月 14 日创建
dplyr 解决方案:
library(dplyr)
df1 %>% mutate(across(v2:v5, ~ifelse(nchar(.x)>1, 9, .x)))
#> # A tibble: 5 x 6
#> id v1 v2 v3 v4 v5
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
由 reprex package (v2.0.1)
创建于 2022-03-13
数据
df1 <- structure(list(id = c(1, 2, 3, 4, 5), v1 = c(1, 1, 4, 5, 1),
v2 = c("1", "1", "1", "1", "1"), v3 = c("98", "1", "0", "1",
"90"), v4 = c("1", "1", "22", "1", "1"), v5 = c("1", "1",
"1", "1", "1")), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA,
-5L))
df <- data.frame(id,v1,v2,v3,v4,v5)
n <- NROW(df)
m <- NCOL(df)
for (j in 1:m) {
for (i in 1:n) {
ifelse(nchar(df[i,j]) > 1, df[i,j] <- 9, "")
}
}
我有一个大的 dataframe
,结构如下:
id v1 v2 v3 v4 v5
1 1 1 98 1 1
2 1 1 1 1 1
3 4 1 0 22 1
4 5 1 1 1 1
5 1 1 90 1 1
我想从 v2
一直移动到 v5
,如果变量值的长度大于 1 个字符,那么它会被重新编码为 9,因此结果 df
将是:
id v1 v2 v3 v4 v5
1 1 1 9 1 1
2 1 1 1 1 1
3 4 1 0 9 1
4 5 1 1 1 1
5 1 1 9 1 1
- 注意:所有变量都存储为字符串,这就是为什么我希望将长度作为答案的一部分。
如果这是一个大 dataframe
,使用 data.table
库,您可以:
Reprex
- 代码
library(data.table)
cols <- paste0("v", 2:5)
setDT(df)[, (cols) := lapply(.SD, function(x) fifelse(nchar(x) > 1, 9, x)), .SDcols = cols][]
- 输出
#> id v1 v2 v3 v4 v5
#> 1: 1 1 1 9 1 1
#> 2: 2 1 1 1 1 1
#> 3: 3 4 1 0 9 1
#> 4: 4 5 1 1 1 1
#> 5: 5 1 1 9 1 1
由 reprex package (v2.0.1)
于 2022 年 3 月 14 日创建编辑:
dplyr
解决方案
- 代码
library(dplyr)
df %>% mutate(across(v2:v5, ~ ifelse(nchar(.x) > 1, 9, .x)))
- 输出
#> id v1 v2 v3 v4 v5
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
基础 R 解决方案
- 代码
cols <- paste0("v", 2:5)
df[, cols] <- apply(df[, cols], c(1,2), function(x) ifelse(nchar(x) > 1, 9, x))
- 输出
df
#> id v1 v2 v3 v4 v5
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
由 reprex package (v2.0.1)
于 2022 年 3 月 14 日创建dplyr 解决方案:
library(dplyr)
df1 %>% mutate(across(v2:v5, ~ifelse(nchar(.x)>1, 9, .x)))
#> # A tibble: 5 x 6
#> id v1 v2 v3 v4 v5
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 1 1 1 9 1 1
#> 2 2 1 1 1 1 1
#> 3 3 4 1 0 9 1
#> 4 4 5 1 1 1 1
#> 5 5 1 1 9 1 1
由 reprex package (v2.0.1)
创建于 2022-03-13数据
df1 <- structure(list(id = c(1, 2, 3, 4, 5), v1 = c(1, 1, 4, 5, 1),
v2 = c("1", "1", "1", "1", "1"), v3 = c("98", "1", "0", "1",
"90"), v4 = c("1", "1", "22", "1", "1"), v5 = c("1", "1",
"1", "1", "1")), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA,
-5L))
df <- data.frame(id,v1,v2,v3,v4,v5)
n <- NROW(df)
m <- NCOL(df)
for (j in 1:m) {
for (i in 1:n) {
ifelse(nchar(df[i,j]) > 1, df[i,j] <- 9, "")
}
}