如何根据日期计算汇总数据

Question

如何根据日期计算汇总数据

我的数据看起来像这样(注意日期是DD-MM-YYYY格式):

ID  date      drug  score
A   28/08/2016  2   3
A   29/08/2016  1   4
A   30/08/2016  2   4
A   2/09/2016   2   4
A   3/09/2016   1   4
A   4/09/2016   2   4
B   8/08/2016   1   3
B   9/08/2016   2   4
B   10/08/2016  2   3
B   11/08/2016  1   3
C   30/11/2016  2   4
C   2/12/2016   1   5
C   3/12/2016   2   1
C   5/12/2016   1   4
C   6/12/2016   2   4
C   8/12/2016   1   2
C   9/12/2016   1   2

Run Code Online (Sandbox Code Playgroud)

对于'药物':1 =服用药物,2 =不服用药物.

我需要总结每个ID:

0day:服用药物的天数的平均分数.
-1天:药物服用前几天的平均得分.
+ 1天:服用药物后立即的平均分数.

如果连续2天服用药物(例如该实施例的最后2行),则不应在-1天或+ 1天计算中计算这些分数(即,最后两行中的每一行都将有助于0day分数)但不会对其他指标做出贡献).

所以对于这个示例数据,我需要一个像这样的输出表:

    -1day   0day      +1day
A   3.5     4         4
B   3       3         4
C           3.25      2.5

Run Code Online (Sandbox Code Playgroud)

请注意,没有所有日期的记录,并且-1day和+ 1day计算需要基于实际日期而不仅仅是数据集中的记录.

我不知道该怎么做.

我还有两个额外的奖励问题:

我很可能还需要计算-2天和2天的分数,所以需要能够调整答案来做到这一点.
我怎样才能计算出一个NoDrug评分,这是所有天数的平均值,不是在服药一天的5天内.

以下是使用此示例数据生成数据框的代码:

data<-data.frame(ID=c("A","A","A","A","A","A","B","B","B","B","C","C","C","C","C","C","C"),
                 date=as.Date(c("28/08/2016","29/08/2016","30/08/2016","2/09/2016","3/09/2016","4/09/2016","8/08/2016","9/08/2016","10/08/2016","11/08/2016","30/11/2016","2/12/2016","3/12/2016","5/12/2016","6/12/2016","8/12/2016","9/12/2016"),format= "%d/%m/%Y"),
                 drug=c(2,1,2,2,1,2,1,2,2,1,2,1,2,1,2,1,1),
                 score=c(3,4,4,4,4,4,3,4,3,3,4,5,1,4,4,2,2))

Run Code Online (Sandbox Code Playgroud)

Answer 1

aus*_*sen 4

您可以使用 dplyr 来获取：

创建数据

df <- data.frame(
  ID=c("A","A","A","A","A","A","B","B","B","B","C","C","C","C","C","C","C"),
  date=as.Date(c("28/08/2016","29/08/2016","30/08/2016","2/09/2016","3/09/2016","4/09/2016","8/08/2016","9/08/2016","10/08/2016","11/08/2016","30/11/2016","2/12/2016","3/12/2016","5/12/2016","6/12/2016","8/12/2016","9/12/2016"),format= "%d/%m/%Y"),
  drug=c(2,1,2,2,1,2,1,2,2,1,2,1,2,1,2,1,1),
  score=c(3,4,4,4,4,4,3,4,3,3,4,5,1,4,4,2,2)
)

df

#>    ID       date drug score
#> 1   A 2016-08-28    2     3
#> 2   A 2016-08-29    1     4
#> 3   A 2016-08-30    2     4
#> 4   A 2016-09-02    2     4
#> 5   A 2016-09-03    1     4
#> 6   A 2016-09-04    2     4
#> 7   B 2016-08-08    1     3
#> 8   B 2016-08-09    2     4
#> 9   B 2016-08-10    2     3
#> 10  B 2016-08-11    1     3
#> 11  C 2016-11-30    2     4
#> 12  C 2016-12-02    1     5
#> 13  C 2016-12-03    2     1
#> 14  C 2016-12-05    1     4
#> 15  C 2016-12-06    2     4
#> 16  C 2016-12-08    1     2
#> 17  C 2016-12-09    1     2

Run Code Online (Sandbox Code Playgroud)

填写缺失的行（天）

解决此类问题的一个好方法是使用tidyr::complete

library(dplyr) library(tidyr) df1 <- df %>% group_by(ID) %>% complete(date = seq(min(date), max(date), by = "day")) df1 #> Source: local data frame [22 x 4] #> Groups: ID [3] #> #> # A tibble: 22 x 4 #> ID date drug score #> <fctr> <date> <dbl> <dbl> #> 1 A 2016-08-28 2 3 #> 2 A 2016-08-29 1 4 #> 3 A 2016-08-30 2 4 #> 4 A 2016-08-31 NA NA #> 5 A 2016-09-01 NA NA #> 6 A 2016-09-02 2 4 #> 7 A 2016-09-03 1 4 #> 8 A 2016-09-04 2 4 #> 9 B 2016-08-08 1 3 #> 10 B 2016-08-09 2 4 #> # ... with 12 more rows
Run Code Online (Sandbox Code Playgroud)
对日期进行分类

df2 <- df1 %>% group_by(ID) %>% mutate(day_of = drug == 1, day_before = (lead(drug) == 1 & day_of == FALSE), day_after = (lag(drug) == 1 & day_of == FALSE)) df2 #> Source: local data frame [22 x 7] #> Groups: ID [3] #> #> # A tibble: 22 x 7 #> ID date drug score day_of day_before day_after #> <fctr> <date> <dbl> <dbl> <lgl> <lgl> <lgl> #> 1 A 2016-08-28 2 3 FALSE TRUE NA #> 2 A 2016-08-29 1 4 TRUE FALSE FALSE #> 3 A 2016-08-30 2 4 FALSE NA TRUE #> 4 A 2016-08-31 NA NA NA NA FALSE #> 5 A 2016-09-01 NA NA NA FALSE NA #> 6 A 2016-09-02 2 4 FALSE TRUE NA #> 7 A 2016-09-03 1 4 TRUE FALSE FALSE #> 8 A 2016-09-04 2 4 FALSE NA TRUE #> 9 B 2016-08-08 1 3 TRUE FALSE FALSE #> 10 B 2016-08-09 2 4 FALSE FALSE TRUE #> # ... with 12 more rows
Run Code Online (Sandbox Code Playgroud)
按日类型汇总

dplyr::mutate_at将函数 ( 中funs()) 应用于中选择的所有列vars()。summarise_at在对某些选定列进行操作方面，操作方式相同，但不是更改整个数据集的值，而是将其减少为每组一行。可以阅读有关 m mutate、summarise和特殊*_at版本的更多信息。

df3 <- df2 %>% mutate_at(vars(starts_with("day_")), funs(if_else(. == TRUE, score, NA_real_))) %>% summarise_at(vars(starts_with("day_")), mean, na.rm = TRUE) df3 #> # A tibble: 3 x 4 #> ID day_of day_before day_after #> <fctr> <dbl> <dbl> <dbl> #> 1 A 4.00 3.5 4.0 #> 2 B 3.00 3.0 4.0 #> 3 C 3.25 NaN 2.5
Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，9 月前
查看次数：	115 次
最近记录：	8 年，9 月前