根据data.table中特定列上的多个条件来标记行

Question

根据data.table中特定列上的多个条件来标记行

我有一个data.table，其中包含特定年份的变量“ Performance”的多个列以及一个名为“ ExPerf”的列。我想创建一个名为FLAG的新列，该列将基于以下两个条件指示标记为需要手动检查的行：

任何“性能”列的值为负
“ ExPerf”列与任何列的相差超过50％。

类似于我的模拟data.table：

library(data.table)
dt <- data.table(Id = c("N23", "N34", "N11", "N65", "N55", "N78", "N88"),
                 Name = c("ABCD", "ACBD", "ACCD", "ADBN", "ADDD", "DBCA", "CBDA"),
                 Type = c("T", "B", "B", "T", "T", "B", "B"),
                 Sold = c(500, 300, 350, 500, 350, 400, 450),
                 Bl = c(2000, 2100, 2000, 1500, 1890, 1900, 2000),
                 P_2016 = c(-200, 420, 800, 900, -10, 75, 400),
                 P_2017 = c(500, 300, -20, 700, 50, 80, 370),
                 P_2018 = c(1000, 400, 600, 800, 40, 500, 300),
                 EP_2019 = c(1500, 380, 500, 850, 30, 400, 350))
dt

Id Name Type Sold Baseline Perf_2016 Perf_2017 Perf_2018 ExpPerf_2019
N23 ABCD T   500  2000     -200      500       1000      1500
N34 ACBD B   300  2100     420       300       400       380
N11 ACCD B   350  2000     800       -20       600       500
N65 ADBN T   500  1500     900       700       800       850
N55 ADDD T   350  1890     -10       50        40        30
N78 DBCA B   400  1900     75        80        500       400
N88 CBDA B   450  2000     400       370       300       350

Run Code Online (Sandbox Code Playgroud)

对于此data.table，所需的输出将添加FLAG列，如下所示：

    Id Name Type Sold Baseline Perf_2016 Perf_2017 Perf_2018 ExpPerf_2019  FLAG
1: N23 ABCD    T  500     2000      -200       500      1000         1500  TRUE
2: N34 ACBD    B  300     2100       420       300       400          380 FALSE
3: N11 ACCD    B  350     2000       800       -20       600          500  TRUE
4: N65 ADBN    T  500     1500       900       700       800          850 FALSE
5: N55 ADDD    T  350     1890       -10        50        40           30  TRUE
6: N78 DBCA    B  400     1900        75        80       500          400  TRUE
7: N88 CBDA    B  450     2000       400       370       300          350 FALSE

Run Code Online (Sandbox Code Playgroud)

Answer 1

Fra*_*ank 6

任何性能列的值为负

预期效果列与任何性能列的差异均超过50％。

换句话说，这些列有共同的最小和最大范围：

最小值为最大值（0，ExpPerf * 0.5）
最大值为ExpPerf * 1.5

所以...

dt[, v := !Reduce(`&`, 
  lapply(.SD, between, pmax(0, ExpPerf_2019*0.5), ExpPerf_2019*1.5)
), .SDcols=grep("^Perf_", names(dt), value=TRUE)]

    Id Name Type Sold Baseline Perf_2016 Perf_2017 Perf_2018 ExpPerf_2019     v
1: N23 ABCD    T  500     2000      -200       500      1000         1500  TRUE
2: N34 ACBD    B  300     2100       420       300       400          380 FALSE
3: N11 ACCD    B  350     2000       800       -20       600          500  TRUE
4: N65 ADBN    T  500     1500       900       700       800          850 FALSE
5: N55 ADDD    T  350     1890       -10        50        40           30  TRUE
6: N78 DBCA    B  400     1900        75        80       500          400  TRUE
7: N88 CBDA    B  450     2000       400       370       300          350 FALSE

Run Code Online (Sandbox Code Playgroud)

怎么运行的：

between 检查列是否在最小值和最大值之间
lapply 将检查应用于每一列，并返回一个列表
Reduce与&检查是否所有列都满足条件
! 否定结果，因此我们确定至少一列不符合条件的情况

between，&和!被矢量化操作符，所以我们有结果的矢量，一个用于每一行结束。我可能会在magrittr中编写此序列，以便遵循以下步骤：

library(magrittr)

dt[, v := .SD %>% 
  lapply(between, pmax(0, ExpPerf_2019*0.5), ExpPerf_2019*1.5) %>%
  Reduce(f=`&`) %>%
  not
, .SDcols=grep("^Perf_", names(dt), value=TRUE)]

Run Code Online (Sandbox Code Playgroud)

not是!magrittr为方便起见而对的重新标记。

.SD是的j一部分内部操作的数据子集的特殊符号DT[i, j, by]。在这种情况下，没有i或by，所以只有.SDcols子集（用于选择感兴趣的列）。

如果OP选择以长格式格式化数据，则代码将更简单。
我的答案使用与Gilean相同的步骤，但是是矢量化的，而不是按行计算。

归档时间：	6 年，7 月前
查看次数：	159 次
最近记录：	6 年，4 月前