R/dplyr:使用循环创建滞后并根据列名计算累积总和

Question

R/dplyr:使用循环创建滞后并根据列名计算累积总和

我想循环遍历大型数据帧中的一长列列,并计算列的滞后值的累积总和.换句话说,我有点计算在每次观察之前已经"完成"了多少.

玩具数据框有助于使这一点更加清晰.

id = c("a", "a", "a", "b", "b")
date = seq(as.Date("2015-12-01"), as.Date("2015-12-05"), by="days")
v1 = sample(seq(1, 20), 5)
v2 = sample(seq(1, 20), 5)
df = data.frame(id, date, v1, v2)

Run Code Online (Sandbox Code Playgroud)

我希望它看起来像

id   date         v1   v2   v1Cum   v2Cum
a    2015-12-01   1    13     0       0
a    2015-12-02   7    11     1       13
a    2015-12-03   12   2      8       24
b    2015-12-04   18   6      0       0
b    2015-12-05   4    9      18      6

Run Code Online (Sandbox Code Playgroud)

因此,它不是id组中v1或v2的累积和,而是每个id的滞后值的累积和.

我可以在单个列上做这个没有问题,但我似乎无法用循环来概括它:

vars = c("v1", "v2")
for (var in vars) {
  lagname = paste(var, "Lag", sep="")
  cumname = paste(var, "Cum", sep="")
  df = arrange(df, id, date)
  df = df %>% 
    group_by(id) %>% 
    mutate(!!lagname := dplyr::lag(var, n = 1, default = NA))
  df[[lagname]] = ifelse(is.na(df[[lagname]]), 0, df[[lagname]])
  df = df %>% group_by(id) %>% arrange(date) %>% mutate(!!cumname := cumsum(!!lagname))
}

Run Code Online (Sandbox Code Playgroud)

正如我所看到的那样,问题是

lag变量只评估为NA(或ifelse()后的0).我知道我还没有完全固定mutate().
累积求和评估为NA

有任何想法吗？谢谢您的帮助!(我打算在休息几年后重新开始编码.但是,我的主要"语言"是Stata,所以我想我正在接近这一点.很高兴完全修改它!)

Answer 1

Z.L*_*Lin 5

如果我理解正确,以下应该有效:

可重复的样本数据(有3个变量用于求和):

set.seed(123)
df = data.frame(
  id = c("a", "a", "a", "b", "b"),
  date = seq(as.Date("2015-12-01"), as.Date("2015-12-05"), by="days"),
  v1 = sample(seq(1, 20), 5),
  v2 = sample(seq(1, 20), 5),
  v3 = sample(seq(1, 20), 5)
)

> df
  id       date v1 v2 v3
1  a 2015-12-01  6  1 20
2  a 2015-12-02 15 11  9
3  a 2015-12-03  8 17 13
4  b 2015-12-04 16 10 10
5  b 2015-12-05 17  8  2

Run Code Online (Sandbox Code Playgroud)

按ID分组,按日期排序(如果它们不是按顺序排序),并且对两个命名变量之间的所有命名变量进行变异(v1:v3在本例中):

df %>%
  group_by(id) %>%
  arrange(date) %>%
  mutate_at(vars(v1:v3), funs(Cum = cumsum(lag(., default = 0)))) %>%
  ungroup()


# A tibble: 5 x 8
# Groups: id [2]
  id     date          v1    v2    v3 v1_Cum v2_Cum v3_Cum
  <fctr> <date>     <int> <int> <int>  <int>  <int>  <int>
1 a      2015-12-01     6     1    20      0      0      0
2 a      2015-12-02    15    11     9      6      1     20
3 a      2015-12-03     8    17    13     21     12     29
4 b      2015-12-04    16    10    10      0      0      0
5 b      2015-12-05    17     8     2     16     10     10

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	313 次
最近记录：	8 年前