如何根据R中的分组获取数据帧的子集?

Uri*_*son 2 r aggregation plyr dataframe

我有一个聚合问题,我无法弄清楚如何在R中有效地执行.

说我有以下数据:

group1 <- c("a","b","a","a","b","c","c","c","c",
            "c","a","a","a","b","b","b","b")
group2 <- c(1,2,3,4,1,3,5,6,5,4,1,2,3,4,3,2,1)
value  <- c("apple","pear","orange","apple",
            "banana","durian","lemon","lime",
            "raspberry","durian","peach","nectarine",
            "banana","lemon","guava","blackberry","grape")
df <- data.frame(group1,group2,value)
Run Code Online (Sandbox Code Playgroud)

我对采样从所述数据帧df,使得我随机的因素每个组合只挑选单个行group1group2.

如你所见,结果 table(df$group1,df$group2)

  1 2 3 4 5 6
a 2 1 2 1 0 0
b 2 2 1 1 0 0
c 0 0 1 1 2 1
Run Code Online (Sandbox Code Playgroud)

表明某些组合不止一次出现,而其他组合从未见过.对于那些被多次看到的人(例如,group1="a"group2=3),我想只随机选择一个相应的行并返回一个只包含该行子集的新数据帧.这样,分组因子的每个可能组合仅由数据帧中的单个行表示.

这里的一个重要方面是我的实际数据集可以包含从500,000行到> 2,000,000行的任何内容,因此注意性能非常重要.

我在R比较新,所以我一直在弄清楚如何正确地生成这个结构.一次尝试看起来像这样(使用plyr包):

choice <- function(x,label) {
    cbind(x[sample(1:nrow(x),1),],data.frame(state=label))
}

df <- ddply(df[,c("group1","group2","value")],
            .(group1,group2),
            pick_junc,
            label="test")
Run Code Online (Sandbox Code Playgroud)

请注意,在这种情况下,我还在名为"label"的数据框中添加了一个额外的列,该列被指定为ddply函数的额外参数.但是,我在大约20分钟后杀了这个.

在其他情况下,我尝试使用aggregatebytapply,但我永远不知道指定的函数到底是什么,它应该返回什么,或者如何处理结果(特别是对于by).

我试图从python切换到R进行探索性数据分析,但这种类型的聚合对我来说至关重要.在python中,我可以非常快速地执行这些操作,但是它不方便,因为我必须为我想要执行的每种不同类型的聚合生成单独的脚本/数据结构.

我想要爱R,所以请帮忙!谢谢!

乌里

Ram*_*ath 6

这是plyr解决方案

set.seed(1234)
ddply(df, .(group1, group2), summarize, 
     value = value[sample(length(value), 1)])
Run Code Online (Sandbox Code Playgroud)

这给了我们

   group1 group2      value
1       a      1      apple
2       a      2  nectarine
3       a      3     banana
4       a      4      apple
5       b      1      grape
6       b      2 blackberry
7       b      3      guava
8       b      4      lemon
9       c      3     durian
10      c      4     durian
11      c      5  raspberry
12      c      6       lime
Run Code Online (Sandbox Code Playgroud)

编辑.如果数据框很大,最好使用data.table

library(data.table)
dt = data.table(df)
dt[,list(value = value[sample(length(value), 1)]),'group1, group2']
Run Code Online (Sandbox Code Playgroud)

编辑2:性能比较:数据表快〜15倍

group1 = sample(letters, 1000000, replace = T)
group2 = sample(LETTERS, 1000000, replace = T)
value  = runif(1000000, 0, 1)
df     = data.frame(group1, group2, value)
dt     = data.table(df)

f1_dtab = function() {
   dt[,list(value = value[sample(length(value), 1)]),'group1, group2']
}
f2_plyr = function() {ddply(df, .(group1, group2), summarize, value =          
   value[sample(length(value), 1)])
}

f3_by = function() {do.call(rbind,by(df,list(grp1 = df$group1,grp2 = df$group2),
  FUN = function(x){x[sample(nrow(x),1),]}))
}


library(rbenchmark)
benchmark(f1_dtab(), f2_plyr(), f3_by(), replications = 10)

      test  replications elapsed relative
  f1_dtab()           10   4.764  1.00000    
  f2_plyr()           10  68.261 14.32851    
    f3_by()           10  67.369 14.14127 
Run Code Online (Sandbox Code Playgroud)