如何按组计算,然后每组只保留一个

bil*_*999 4 merge aggregate r data.table

说我有这个data.frame, data:

data <- data.frame(val=c(rep(6,10), rep(7, 15), rep(8, 20), rep(9, 25), rep(10, 100), rep(11, 20), rep(12, 15), rep(13, 10)))
data$plus <- data$val + 100
Run Code Online (Sandbox Code Playgroud)

我的目标是创建一个data.frame具有每个频率val和相关plus值的新.

我目前的策略是创建一个表(称为table),然后合并频率.然后只保留每组中的第一个观察:

table <- table(data$val)
df1 <- data.frame(val = as.integer(names(table)[1:length(table)]), N = table[1:length(table)])
df2 <- merge(data, df1)
df3 <- do.call(rbind, by(df2, list(df2$val), FUN=function(x) head(x, 1)))
Run Code Online (Sandbox Code Playgroud)

这有效,但看起来很笨重.

例如,在Stata中,代码将更简单.就像是:

bys val plus: egen max = _N
bys val plus: gen first = _n==1
keep if first==1
Run Code Online (Sandbox Code Playgroud)

有没有办法简化或使R代码更优雅?

A5C*_*2T1 10

这是一种使用"data.table"的方法:

library(data.table)
as.data.table(data)[, N := .N, by = val][, .SD[1], by = val]
#    val plus   N
# 1:   6  106  10
# 2:   7  107  15
# 3:   8  108  20
# 4:   9  109  25
# 5:  10  110 100
# 6:  11  111  20
# 7:  12  112  15
# 8:  13  113  10

## Or (@RicardoSaporta)
as.data.table(data)[, list(.N, plus=plus[1]), by = val]

## Or (@DavidArenburg)
unique(as.data.table(data)[, N := .N, by = val], by = "val")
Run Code Online (Sandbox Code Playgroud)

使用"dplyr",您可以尝试:

library(dplyr)

data %>%
  group_by(val) %>%
  mutate(N = n()) %>%
  slice(1)
Run Code Online (Sandbox Code Playgroud)

在基地R,我想你可以尝试类似的东西:

do.call(rbind, lapply(split(data, data$val), 
                      function(x) cbind(x, N = nrow(x))[1, ]))
Run Code Online (Sandbox Code Playgroud)