我有一个数据帧,我想计算每组内的行数.我通常使用该aggregate函数对数据求和如下:
df2 <- aggregate(x ~ Year + Month, data = df1, sum)
Run Code Online (Sandbox Code Playgroud)
现在,我想计算观察结果,但似乎无法找到适当的论据FUN.直觉上,我认为它会如下:
df2 <- aggregate(x ~ Year + Month, data = df1, count)
Run Code Online (Sandbox Code Playgroud)
但是,没有这样的运气.
有任何想法吗?
一些玩具数据:
set.seed(2)
df1 <- data.frame(x = 1:20,
Year = sample(2012:2014, 20, replace = TRUE),
Month = sample(month.abb[1:3], 20, replace = TRUE))
Run Code Online (Sandbox Code Playgroud) 我有一个像
col1 col2 col3
A B C
A B C
A B B
A B B
A B C
B C A
Run Code Online (Sandbox Code Playgroud)
我想获得以下格式的输出:
col1 col2 col3 Count
A B C 3 Duplicates
A B B 2 Duplicates
Run Code Online (Sandbox Code Playgroud)
我不想使用函数中的任何特定列来查找重复项。
这就是不使用 dplyr 中的 add_count 的原因。
使用重复将有
col1 col2 col3 count
2 A B C 3
3 A B B 2
5 A B C 3
Run Code Online (Sandbox Code Playgroud)
所以不是想要的输出。
x <- c(1,1,1,2,3,3,4,4,4,5,6,6,6,6,6,7,7,8,8,8,8)
y <- c('A','A','C','A','B','B','A','C','C','B','A','A','C','C','B','A','C','A','A','A','B')
X <- data.frame(x,y)
Run Code Online (Sandbox Code Playgroud)
上面我有一个数据框,我想识别向量x中的重复项,同时计算两个(x,y)的重复实例数....例如我发现ddply和这篇帖子类似于什么我正在寻找(查找R数据框中重复行重复的次数).
library(ddply)
ddply(X,.(x,y), nrow)
Run Code Online (Sandbox Code Playgroud)
这计算实例的数量1 - A出现的次数是2次......但是我正在寻找R来返回向量x中的唯一标识符,其中x与列y中的匹配次数(如果除去向量y,则为必要的),如下
x A B C
1 2 0 1
2 1 0 0
3 0 2 0
4 1 0 2
5 0 1 0
6 2 1 2
Run Code Online (Sandbox Code Playgroud)
任何帮助将不胜感激,谢谢