使用字符串访问data.table列

Nil*_*dat 9 string indexing r data.table

对于一个问题的道歉,可能很明显我通常在Python/pandas中工作,但我坚持这一点.如何data.table使用字符串选择列?

dt$"string"
dt$as.name("string")
dt$get("string")
Run Code Online (Sandbox Code Playgroud)

我确信这很简单,但我没有得到它.任何帮助是极大的赞赏!


--------------已加入加入----------------------

在下面的一些有用的评论和提示之后,我想我已经缩小了问题并且有一个可重复的例子.考虑:

dt = data.table(ID = c("a","a","a","b","b","b"), col1=rnorm(6), col2=rnorm(6)*100)
Run Code Online (Sandbox Code Playgroud)

并假设我们要将值分配col2col1.正如我在下面学到的,这个data.table语法很dt[,col1:=col2]简洁.当参数中的一个(或两个)变量j是字符串时,问题就开始了.我找到了以下内容:

dt[, "col1":=col2] 按预期工作

dt[, "col1":="col2"]按预期失败(尝试将字符分配给col2双向量col1

dt[, "col1":=get("col2")] 按预期工作

dt[, get("col1")]col1按预期返回

但是:dt[, get("col1"):=col2]或任何其他任务失败.

一些背景:这样做的原因是,我在构建一个循环的字符串,以访问所有命名列的数量较多colname_colnumber了,也就是我环路colnamecolnumber对再接入列paste0(colname,colnumber).

And*_*rie 8

您可以使用单个括号get()作为j参数:

library(data.table)
dt <- data.table(iris)
dt[, get("Species")]
Run Code Online (Sandbox Code Playgroud)

结果:

[1] setosa     setosa     setosa     setosa     setosa     setosa .....
Run Code Online (Sandbox Code Playgroud)

您也可以直接在双括号运算符中使用字符串,如下所示:

dt[["Species"]]
Run Code Online (Sandbox Code Playgroud)

  • 你应该尽可能避免`data.table`中的`<-`赋值.试试`dt [,(var1):= var2]`或`dt [,(var1):= 0]`为你的另一个例子.我推荐[starter vignettes](https://github.com/Rdatatable/data.table/wiki/Getting-started),以获取有关如何完成基本操作的一些非常易读的示例. (4认同)

Mic*_*ico 6

我要补充一点,如果你想要一堆列,你可能希望使用类似的东西:

dt[ , c("id", paste0("col", 1:10)), with = FALSE]
Run Code Online (Sandbox Code Playgroud)

正如@Arun在下面添加的,获取多列的其他选项是:

dt[ , mget(c("id", paste0("col", 1:5)))]
Run Code Online (Sandbox Code Playgroud)

dt[ , .SD, .SDcols = c("id", paste0("col", 1:5))]
Run Code Online (Sandbox Code Playgroud)

在最新版本data.table(例如当前的CRAN)中,您还可以使用"up-a-level"符号,如:

keep_cols = c('id', paste0('col', 1:5))
dt[ , ..keep_cols]
Run Code Online (Sandbox Code Playgroud)

供参考,mget似乎很慢; .SDcols是最快的,但有竞争力with = FALSE; 我个人觉得在不同情况下所有人都很有用/最自然.

这是一个简单的基准:

NN <- 10000L
MM <- 100L
mm <- 10L

DT = data.table(id = 1:NN)
DT[ , paste0("col", 1:MM) := lapply(integer(MM), function(x) runif(NN))]

sdcols = function(...) DT[ , .SD, .SDcols = paste0("col", sample(MM, size = mm))]
m.get = function(...) DT[ , mget(paste0("col", sample(MM, size=mm)))]
withF = function(...) DT[ , paste0("col", sample(MM, size = mm)), with = FALSE]

library(microbenchmark)
microbenchmark(times=100L, sdcols(), m.get(), withF())
# Unit: microseconds
#      expr      min        lq      mean    median        uq      max neval cld
#  sdcols()  780.201  810.4350  865.3564  827.4970  853.4875 2354.577   100 a  
#   m.get() 2792.293 2864.1225 3052.3872 2899.9370 3031.9260 4831.963   100   c
#   withF()  897.822  927.7105 1005.3166  945.9495  981.0580 2600.445   100  b 
Run Code Online (Sandbox Code Playgroud)


Eve*_*vdw 5

您可以在不使用 get 的情况下进行赋值,但使用括号:

dt[, ("col1"):=col2]
Run Code Online (Sandbox Code Playgroud)

代替:

dt[, get("col1"):=col2]
Run Code Online (Sandbox Code Playgroud)

请参阅更多说明:选择/分配给 data.table 变量,其名称存储在字符向量中