用 dplyr 和条件总结

Question

用 dplyr 和条件总结

我有以下数据框：

df <- read.table(text = "group  age status
A   25  yes
A   32  no
A   58  yes
A   78  no
A   76  yes
B   21  no
B   71  yes
B   43  no
B   48  no
C   39  no
C   82  yes
C   87  no
C   91  yes", header = T)

Run Code Online (Sandbox Code Playgroud)

我想对列进行 group_by 分组，然后以某种方式进行汇总，如果年龄小于 50 岁并且状态为“是”，则计算这些值，然后计算年龄小于 50 岁的值的总数。因此对于“A”在数据框中：

age_lt_50_yes = 1
age_lt_50 = 2

Run Code Online (Sandbox Code Playgroud)

同样，对于年龄大于 50 岁，选择“是”，然后选择年龄大于 50 岁；为一个'; 这会是：

age_gt_50_yes = 2
age_gt_50 = 3

Run Code Online (Sandbox Code Playgroud)

我实际上想要一个age_lt_50_yes/age_lt_50的比率，对于“A”，这将是1/2，而对于“A”，age_gt_50_yes/age_gt_50 = 2/3

如果无论如何我遇到这样的情况 0/0; 然后只想要 0 作为输出。

我如何使用 dplyr 来做到这一点？

这是我尝试过的：

df %>% 
  group_by(group) %>% 
  summarize(age_le50_prop = sum(age <= 50) / n(),
            age_gt50_prop = sum(age > 50) / n())

Run Code Online (Sandbox Code Playgroud)

我需要在摘要功能中添加状态

我的输出应该是这样的：

group_by age_lt_50  age_gr_50
A   0.5 0.66
B   0   1
C   0   0.66

Run Code Online (Sandbox Code Playgroud)

Answer 1

lan*_*ang 5

您可以使用reframe(), 并简单地定义您需要的计数。最后一行将处理 0/0 的情况

reframe(
  df, 
  age_lt_50 = sum(age<50 & status=="yes")/sum(age<50),
  age_gt_50 = sum(age>=50 & status=="yes")/sum(age>=50),
  .by=group) %>% replace(is.na(.),0)

Run Code Online (Sandbox Code Playgroud)

输出：

  group age_lt_50 age_gt_50
1     A       0.5 0.6666667
2     B       0.0 1.0000000
3     C       0.0 0.6666667

Run Code Online (Sandbox Code Playgroud)

这是一个替代方案，演示了使用summarize()reframe 来代替 reframe，并且（独立地）还演示了另一种检查分母中 0 可能性的方法：

df %>% 
  group_by(group) %>% 
  summarize(
    age_lt_50 = {if(sum(age<50)==0) 0 else sum(age<50 & status=="yes")/sum(age<50)},
    age_gt_50 = {if(sum(age>=50)==0) 0 else sum(age>=50 & status=="yes")/sum(age>=50)}
)

Run Code Online (Sandbox Code Playgroud)

归档时间：	2 年，8 月前
查看次数：	136 次
最近记录：	2 年，8 月前