通过列索引而不是名称将函数应用于data.table列的子集

Question

通过列索引而不是名称将函数应用于data.table列的子集

Tah*_*sha 33 r multiple-columns indices data.table

我正在尝试将函数应用于大型data.table中的一组列,而不是单独引用每个列.

a <- data.table(
  a=as.character(rnorm(5)),
  b=as.character(rnorm(5)),
  c=as.character(rnorm(5)),
  d=as.character(rnorm(5))
)
b <- c('a','b','c','d')

Run Code Online (Sandbox Code Playgroud)

以上MWE,这个:

a[,b=as.numeric(b),with=F]

Run Code Online (Sandbox Code Playgroud)

工作,但这:

a[,b[2:3]:=data.table(as.numeric(b[2:3])),with=F]

Run Code Online (Sandbox Code Playgroud)

不起作用.将as.numeric函数应用于第2列和第3列的正确方法是什么,a而不单独引用它们.

(在实际的数据集中有几十列,所以这是不切实际的)

Answer 1

mne*_*nel 44

惯用的方法是使用.SD和.SDcols

您可以通过换行强制在父框架中评估RHS ()

a[, (b) := lapply(.SD, as.numeric), .SDcols = b]

Run Code Online (Sandbox Code Playgroud)

对于第2列:3

a[, 2:3 := lapply(.SD, as.numeric), .SDcols = 2:3]

Run Code Online (Sandbox Code Playgroud)

要么

mysubset <- 2:3
a[, (mysubset) := lapply(.SD, as.numeric), .SDcols = mysubset]

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，7 月前
查看次数：	11394 次
最近记录：	7 年，8 月前