使用字符串访问 data.table 列

Question

对于一个可能使我通常在 Python/pandas 工作很明显的问题表示歉意，但我坚持这个问题。如何使用字符串 select data.table 列？

dt$"string"
dt$as.name("string")
dt$get("string")

我确定这非常简单，但我不明白。非常感谢任何帮助！

----------------编辑添加---------------------

在下面的一些有用的评论和提示之后，我想我已经缩小了问题的范围并有一个可重现的例子。考虑：

dt = data.table(ID = c("a","a","a","b","b","b"), col1=rnorm(6), col2=rnorm(6)*100)

并假设我们要将 col2 中的值分配给 col1。正如我在下面了解到的，data.table 语法将是 dt[,col1:=col2]，简洁明了。当 j 参数中的一个（或两个）变量是字符串时，问题就开始了。我发现了以下内容：

dt[, "col1":=col2] 按预期工作

dt[, "col1":="col2"] 按预期失败（尝试将字符 col2 分配给双向量 col1

dt[, "col1":=get("col2")] 按预期工作

dt[, get("col1")] returns col1 符合预期

但是：dt[, get("col1"):=col2] 或任何其他分配失败。

一些上下文：这样做的原因是我在循环中构造字符串，以访问更多的列，这些列都命名为 colname_colnumber，即我循环遍历 colname然后 colnumber 访问列 paste0(colname,colnumber)。

Answer 1

您可以使用 get() 作为 j 参数，使用单括号：

library(data.table)
dt <- data.table(iris)
dt[, get("Species")]

结果：

[1] setosa     setosa     setosa     setosa     setosa     setosa .....

你也可以直接在双括号运算符中使用字符串，像这样：

dt[["Species"]]

Answer 2

我要补充一点，如果你想要一堆列，你可能希望使用类似的东西：

dt[ , c("id", paste0("col", 1:10)), with = FALSE]

正如@Arun 在下面添加的那样，获取多列的其他选项是：

dt[ , mget(c("id", paste0("col", 1:5)))]

和

dt[ , .SD, .SDcols = c("id", paste0("col", 1:5))]

在 data.table 的最新版本中（例如当前的 CRAN），您还可以使用 "up-a-level" 表示法，例如：

keep_cols = c('id', paste0('col', 1:5))
dt[ , ..keep_cols]

作为参考，mget好像很慢； .SDcols 最快，但与 with = FALSE 竞争；我个人认为在不同情况下都是 useful/most 自然的。

这是一个简单的基准测试：

NN <- 10000L
MM <- 100L
mm <- 10L

DT = data.table(id = 1:NN)
DT[ , paste0("col", 1:MM) := lapply(integer(MM), function(x) runif(NN))]

sdcols = function(...) DT[ , .SD, .SDcols = paste0("col", sample(MM, size = mm))]
m.get = function(...) DT[ , mget(paste0("col", sample(MM, size=mm)))]
withF = function(...) DT[ , paste0("col", sample(MM, size = mm)), with = FALSE]

library(microbenchmark)
microbenchmark(times=100L, sdcols(), m.get(), withF())
# Unit: microseconds
#      expr      min        lq      mean    median        uq      max neval cld
#  sdcols()  780.201  810.4350  865.3564  827.4970  853.4875 2354.577   100 a  
#   m.get() 2792.293 2864.1225 3052.3872 2899.9370 3031.9260 4831.963   100   c
#   withF()  897.822  927.7105 1005.3166  945.9495  981.0580 2600.445   100  b

Answer 3

你可以不使用 get 但使用括号进行赋值：

dt[, ("col1"):=col2]

而不是：

dt[, get("col1"):=col2]

查看更多解释：Select / assign to data.table variables which names are stored in a character vector

使用字符串访问 data.table 列

Access data.table columns with strings

string

indexing

r

data.table

----------------编辑添加---------------------