使用字符串访问 data.table 列
Access data.table columns with strings
对于一个可能使我通常在 Python/pandas 工作很明显的问题表示歉意,但我坚持这个问题。如何使用字符串 select data.table
列?
dt$"string"
dt$as.name("string")
dt$get("string")
我确定这非常简单,但我不明白。非常感谢任何帮助!
----------------编辑添加---------------------
在下面的一些有用的评论和提示之后,我想我已经缩小了问题的范围并有一个可重现的例子。考虑:
dt = data.table(ID = c("a","a","a","b","b","b"), col1=rnorm(6), col2=rnorm(6)*100)
并假设我们要将 col2
中的值分配给 col1
。正如我在下面了解到的,data.table
语法将是 dt[,col1:=col2]
,简洁明了。当 j
参数中的一个(或两个)变量是字符串时,问题就开始了。我发现了以下内容:
dt[, "col1":=col2]
按预期工作
dt[, "col1":="col2"]
按预期失败(尝试将字符 col2
分配给双向量 col1
dt[, "col1":=get("col2")]
按预期工作
dt[, get("col1")]
returns col1
符合预期
但是:dt[, get("col1"):=col2]
或任何其他分配失败。
一些上下文:这样做的原因是我在循环中构造字符串,以访问更多的列,这些列都命名为 colname_colnumber
,即我循环遍历 colname
然后 colnumber
访问列 paste0(colname,colnumber)
。
您可以使用 get()
作为 j
参数,使用单括号:
library(data.table)
dt <- data.table(iris)
dt[, get("Species")]
结果:
[1] setosa setosa setosa setosa setosa setosa .....
你也可以直接在双括号运算符中使用字符串,像这样:
dt[["Species"]]
我要补充一点,如果你想要一堆列,你可能希望使用类似的东西:
dt[ , c("id", paste0("col", 1:10)), with = FALSE]
正如@Arun 在下面添加的那样,获取多列的其他选项是:
dt[ , mget(c("id", paste0("col", 1:5)))]
和
dt[ , .SD, .SDcols = c("id", paste0("col", 1:5))]
在 data.table
的最新版本中(例如当前的 CRAN),您还可以使用 "up-a-level" 表示法,例如:
keep_cols = c('id', paste0('col', 1:5))
dt[ , ..keep_cols]
作为参考,mget
好像很慢; .SDcols
最快,但与 with = FALSE
竞争;我个人认为在不同情况下都是 useful/most 自然的。
这是一个简单的基准测试:
NN <- 10000L
MM <- 100L
mm <- 10L
DT = data.table(id = 1:NN)
DT[ , paste0("col", 1:MM) := lapply(integer(MM), function(x) runif(NN))]
sdcols = function(...) DT[ , .SD, .SDcols = paste0("col", sample(MM, size = mm))]
m.get = function(...) DT[ , mget(paste0("col", sample(MM, size=mm)))]
withF = function(...) DT[ , paste0("col", sample(MM, size = mm)), with = FALSE]
library(microbenchmark)
microbenchmark(times=100L, sdcols(), m.get(), withF())
# Unit: microseconds
# expr min lq mean median uq max neval cld
# sdcols() 780.201 810.4350 865.3564 827.4970 853.4875 2354.577 100 a
# m.get() 2792.293 2864.1225 3052.3872 2899.9370 3031.9260 4831.963 100 c
# withF() 897.822 927.7105 1005.3166 945.9495 981.0580 2600.445 100 b
你可以不使用 get 但使用括号进行赋值:
dt[, ("col1"):=col2]
而不是:
dt[, get("col1"):=col2]
查看更多解释:Select / assign to data.table variables which names are stored in a character vector
对于一个可能使我通常在 Python/pandas 工作很明显的问题表示歉意,但我坚持这个问题。如何使用字符串 select data.table
列?
dt$"string"
dt$as.name("string")
dt$get("string")
我确定这非常简单,但我不明白。非常感谢任何帮助!
----------------编辑添加---------------------
在下面的一些有用的评论和提示之后,我想我已经缩小了问题的范围并有一个可重现的例子。考虑:
dt = data.table(ID = c("a","a","a","b","b","b"), col1=rnorm(6), col2=rnorm(6)*100)
并假设我们要将 col2
中的值分配给 col1
。正如我在下面了解到的,data.table
语法将是 dt[,col1:=col2]
,简洁明了。当 j
参数中的一个(或两个)变量是字符串时,问题就开始了。我发现了以下内容:
dt[, "col1":=col2]
按预期工作
dt[, "col1":="col2"]
按预期失败(尝试将字符 col2
分配给双向量 col1
dt[, "col1":=get("col2")]
按预期工作
dt[, get("col1")]
returns col1
符合预期
但是:dt[, get("col1"):=col2]
或任何其他分配失败。
一些上下文:这样做的原因是我在循环中构造字符串,以访问更多的列,这些列都命名为 colname_colnumber
,即我循环遍历 colname
然后 colnumber
访问列 paste0(colname,colnumber)
。
您可以使用 get()
作为 j
参数,使用单括号:
library(data.table)
dt <- data.table(iris)
dt[, get("Species")]
结果:
[1] setosa setosa setosa setosa setosa setosa .....
你也可以直接在双括号运算符中使用字符串,像这样:
dt[["Species"]]
我要补充一点,如果你想要一堆列,你可能希望使用类似的东西:
dt[ , c("id", paste0("col", 1:10)), with = FALSE]
正如@Arun 在下面添加的那样,获取多列的其他选项是:
dt[ , mget(c("id", paste0("col", 1:5)))]
和
dt[ , .SD, .SDcols = c("id", paste0("col", 1:5))]
在 data.table
的最新版本中(例如当前的 CRAN),您还可以使用 "up-a-level" 表示法,例如:
keep_cols = c('id', paste0('col', 1:5))
dt[ , ..keep_cols]
作为参考,mget
好像很慢; .SDcols
最快,但与 with = FALSE
竞争;我个人认为在不同情况下都是 useful/most 自然的。
这是一个简单的基准测试:
NN <- 10000L
MM <- 100L
mm <- 10L
DT = data.table(id = 1:NN)
DT[ , paste0("col", 1:MM) := lapply(integer(MM), function(x) runif(NN))]
sdcols = function(...) DT[ , .SD, .SDcols = paste0("col", sample(MM, size = mm))]
m.get = function(...) DT[ , mget(paste0("col", sample(MM, size=mm)))]
withF = function(...) DT[ , paste0("col", sample(MM, size = mm)), with = FALSE]
library(microbenchmark)
microbenchmark(times=100L, sdcols(), m.get(), withF())
# Unit: microseconds
# expr min lq mean median uq max neval cld
# sdcols() 780.201 810.4350 865.3564 827.4970 853.4875 2354.577 100 a
# m.get() 2792.293 2864.1225 3052.3872 2899.9370 3031.9260 4831.963 100 c
# withF() 897.822 927.7105 1005.3166 945.9495 981.0580 2600.445 100 b
你可以不使用 get 但使用括号进行赋值:
dt[, ("col1"):=col2]
而不是:
dt[, get("col1"):=col2]
查看更多解释:Select / assign to data.table variables which names are stored in a character vector