如何按变量分组并按data.table中的随机顺序列出？

Question

如何按变量分组并按data.table中的随机顺序列出？

Far*_*rel 4 r sample permutation data.table

我有一个我要分组的变量.这很容易.但是,我希望结果表按随机顺序列出其行.我真正想做的事情有点复杂.但请允许我向您展示一个简化版本.

mydf = data.table(
   x = rep(1:4, each = 5),
   y = rep(c('A', 'B','c','D', 'E'), times = 2),
   v = rpois(20, 30)
)

mydf[,list(sum(x),sum(v)), by=y]
mydf[,list(sum(x),sum(v)), by=list(y=sample(y))]

#to list all the raw data in order of y


mydf[,list(x,v), by=y]
mydf[,list(x,v), by=list(y=sample(y))]

Run Code Online (Sandbox Code Playgroud)

如果你查看结果输出,你会注意到y确实是随机顺序,但是它已经从带有它的行中的数据变得精神错乱.

我能做什么？

Answer 1

Blu*_*ter 5

我会做手术,然后随机订购:

mydf[,list(x,v),by=y][sample(seq_len(nrow(mydf)),replace=FALSE)]

Run Code Online (Sandbox Code Playgroud)

编辑:分组后随机重新排序:

mydf[,list(sum(x),sum(v)), by=y][sample(seq_len(length(y)),replace=FALSE)]

Run Code Online (Sandbox Code Playgroud)

在分组之前,您可以执行类似这样的操作来分组和随机排序,看起来它确实保留了更改的顺序:

mydf[order(setNames(sample(unique(y)),unique(y))[y])]
mydf[order(setNames(sample(unique(y)),unique(y))[y]),list(sum(x),sum(v)),by=y]

#perhaps more readable:
mydf[{z <- unique(y); order(setNames(sample(z),z)[y])}]
mydf[{z <- unique(y); order(setNames(sample(z),z)[y])},list(sum(x),sum(v)),by=y]

Run Code Online (Sandbox Code Playgroud)

通过在订购之前添加列来更加透明.

mydf[,new.y := setNames(sample(unique(y)),unique(y))[y]][order(new.y)]

Run Code Online (Sandbox Code Playgroud)

打破它:

##a random ordering of the elements of y 
##(set.seed is used here to get consistent results)
set.seed(1); mydf[,{z <- unique(y);sample(z)}]
# [1] "B" "E" "D" "c" "A"
##assigning names to the elements of y
##creating a 1-1 bijective function between the elements of y
set.seed(1); mydf[,{z <- unique(y);setNames(sample(z),z)}]
#  A   B   c   D   E 
#"B" "E" "D" "c" "A" 
##subsetting by y puts y through the map
##in effect every element of y is posing as an element of y, picked at random
##notice that the names (top row) are the original y
##the values (bottom row) are the mapped-to values
#  A   B   c   D   E   A   B   c   D   E   A   B   c   D   E   A   B   c   D   E 
#"B" "E" "D" "c" "A" "B" "E" "D" "c" "A" "B" "E" "D" "c" "A" "B" "E" "D" "c" "A"
##ordering by this now orders by the mapped-to values
set.seed(1); mydf[{z <- unique(y);order(setNames(sample(z),z)[y])}]

Run Code Online (Sandbox Code Playgroud)

编辑:将 Arun的建议纳入setattr用于设置名称的注释中:

mydf[{z <- unique(y); order(setattr(sample(z),'names',z)[y])}]
mydf[{z <- unique(y); order(setattr(sample(z),'names',z)[y])},list(sum(x),sum(v)),by=y]

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，11 月前
查看次数：	777 次
最近记录：	12 年，7 月前