有没有更快的方法在列表中随机子集向量？

Question

有没有更快的方法在列表中随机子集向量？

我正在寻找一种快速解决方案，用于随机子集嵌套在列表中的向量。

如果我们模拟以下数据，我们会得到一个列表l，其中包含 300 万个向量，每个向量的长度为 5。但我希望每个向量的长度有所不同。所以我想我应该应用一个随机子集每个向量的函数。问题是，这个方法并没有我希望的那么快。

模拟数据：列表l

library(stringi)

set.seed(123)
vec_n <- 15e6
vec_vals  <- 1:vec_n
vec_names <- stringi::stri_rand_strings(vec_n, 5)

my_named_vec <- setNames(vec_vals, vec_names)

split_func <- function(x, n) {
  unname(split(x, rep_len(1:n, length(x))))
}

l <- split_func(my_named_vec, n = vec_n / 5)

head(l)
#> [[1]]
#>    HmPsw    Qk8NP    Quo3T    8f0GH    nZmjN 
#>        1  3000001  6000001  9000001 12000001 
#> 
#> [[2]]
#>    2WtYS    ZaHFl    6YjId    jbGuA    tAG65 
#>        2  3000002  6000002  9000002 12000002 
#> 
#> [[3]]
#>    xSgZ6    jM5Uw    ujPOc    CTV5F    5JRT5 
#>        3  3000003  6000003  9000003 12000003 
#> 
#> [[4]]
#>    tF2Kx    r4ZCI    Ooklo    VOLHU    M6z6H 
#>        4  3000004  6000004  9000004 12000004 
#> 
#> [[5]]
#>    tgdze    w8d1B    FYERK    jlClo    NQfsF 
#>        5  3000005  6000005  9000005 12000005 
#> 
#> [[6]]
#>    hXaH9    gsY1u    CjBwC    Oqqty    dxJ4c 
#>        6  3000006  6000006  9000006 12000006

Run Code Online (Sandbox Code Playgroud)

现在我们已经有了l，我希望随机地对每个向量进行子集化：这意味着被子集化的元素数量（每个向量）将是随机的。因此，一种选择是设置以下实用函数：

randomly_subset_vec <- function(x) {
  my_range <- 1:length(x)
  x[-sample(my_range, sample(my_range))]
}

lapply(head(l), randomly_subset_vec)
#> [[1]]
#>   Quo3T 
#> 6000001 
#> 
#> [[2]]
#>   6YjId   jbGuA 
#> 6000002 9000002 
#> 
#> [[3]]
#>   xSgZ6   jM5Uw   ujPOc   CTV5F 
#>       3 3000003 6000003 9000003 
#> 
#> [[4]]
#>   Ooklo 
#> 6000004 
#> 
#> [[5]]
#> named integer(0)
#> 
#> [[6]]
#>    CjBwC    Oqqty    dxJ4c 
#>  6000006  9000006 12000006

Run Code Online (Sandbox Code Playgroud)

但运行这个过程需要很l长时间。我尝试过使用rrapply它来处理列表的快速包，在我的机器上“只”需要 110 秒。

library(rrapply)
library(tictoc)

tic()
l_subsetted <- rrapply(object = l, f = randomly_subset_vec)
toc()
#> 110.23 sec elapsed

Run Code Online (Sandbox Code Playgroud)

我会对以下任一情况感到满意：

有没有更快的替代方案：
```
rrapply(object = l, f = randomly_subset_vec)
```
Run Code Online (Sandbox Code Playgroud)
或者更一般地说，是否有一种更快的方式来开始my_named_vec和到达l_subsetted？

Answer 1

jbl*_*d94 5

更新 1修复stack大对象的名称行为

您的子集不包括完整的集合，因此首先从每个向量中删除一个随机元素，然后随机保留所有其他元素：

library(stringi)

set.seed(123)
vec_n <- 15e6
vec_vals  <- 1:vec_n
vec_names <- stringi::stri_rand_strings(vec_n, 5)

my_named_vec <- setNames(vec_vals, vec_names)

split_func <- function(x, n) {
  unname(split(x, rep_len(1:n, length(x))))
}

l <- split_func(my_named_vec, n = vec_n / 5)
system.time({
  lenl <- lengths(l)
  # use stack to unlist the list while keeping the originating list index for each value
  vec_names <- names(unlist(l))
  blnKeep <- replace(sample(c(FALSE, TRUE), length(vec_names), replace = TRUE), ceiling(runif(length(l))*lenl) + c(0, head(cumsum(lenl), -1)), FALSE)
  temp <- stack(setNames(l, seq_along(l)))[blnKeep,]
  # re-list
  l_subsetted <- unname(split(setNames(temp$values, vec_names[blnKeep]), temp$ind))
})
#>    user  system elapsed 
#>  22.999   0.936  23.934
head(l_subsetted)
#> [[1]]
#>    HmPsw    nZmjN 
#>        1 12000001 
#> 
#> [[2]]
#>   2WtYS   6YjId 
#>       2 6000002 
#> 
#> [[3]]
#>   xSgZ6   jM5Uw   ujPOc 
#>       3 3000003 6000003 
#> 
#> [[4]]
#>   tF2Kx   r4ZCI 
#>       4 3000004 
#> 
#> [[5]]
#>    FYERK    NQfsF 
#>  6000005 12000005 
#> 
#> [[6]]
#>   gsY1u 
#> 3000006
Created on 2021-11-01 by the reprex package (v2.0.0)

Run Code Online (Sandbox Code Playgroud)

长度均匀分布的向量的更新 2 ：

@runr 在评论中是正确的，上面的代码将产生二项分布的向量长度，而OP的原始代码会产生均匀分布的向量长度。下面是如何使用相同的想法获得均匀分布的向量长度的示例。代码更复杂，但运行时间似乎更快一些（可能是由于规避stack）：

library(stringi) set.seed(123) vec_n <- 15e6 vec_vals <- 1:vec_n vec_names <- stringi::stri_rand_strings(vec_n, 5) my_named_vec <- setNames(vec_vals, vec_names) split_func <- function(x, n) { unname(split(x, rep_len(1:n, length(x)))) } l <- split_func(my_named_vec, n = vec_n / 5) system.time({ idx <- seq_along(l) lenl <- lengths(l) ul <- unlist(l) # get a random number of elements to remove from each vector nRemove <- ceiling(runif(length(l))*lenl) nRemove2 <- nRemove blnNotEmpty <- nRemove != lenl # will the subset vector have any elements? blnKeep <- rep(TRUE, length(l)) # loop until the predetermined number of elements have been removed from each vector while (length(nRemove)) { # remove a random element from vectors that have too many ul <- ul[-(ceiling(runif(length(idx))*lenl[idx]) + c(0, head(cumsum(lenl), -1))[idx])] lenl[idx] <- lenl[idx] - 1L # decrement the vector lengths blnKeep <- nRemove != 1 idx <- idx[blnKeep] nRemove <- nRemove[blnKeep] - 1L # decrement the number of elements left to remove } l_subsetted <- rep(list(integer(0)), length(l)) l_subsetted[blnNotEmpty] <- unname(split(ul, rep.int(seq_along(l), lenl))) }) #> user system elapsed #> 18.396 0.935 19.332 head(l_subsetted) #> [[1]] #> Qk8NP Quo3T 8f0GH #> 3000001 6000001 9000001 #> #> [[2]] #> integer(0) #> #> [[3]] #> xSgZ6 ujPOc CTV5F 5JRT5 #> 3 6000003 9000003 12000003 #> #> [[4]] #> tF2Kx Ooklo VOLHU #> 4 6000004 9000004 #> #> [[5]] #> tgdze w8d1B jlClo NQfsF #> 5 3000005 9000005 12000005 #> #> [[6]] #> gsY1u CjBwC Oqqty dxJ4c #> 3000006 6000006 9000006 12000006 # check that vector lengths are uniformly-distributed (lengths of 0-4 are equally likely) table(lengths(l_subsetted)) #> #> 0 1 2 3 4 #> 599633 599041 601209 600648 599469 Created on 2021-11-02 by the reprex package (v2.0.1)
Run Code Online (Sandbox Code Playgroud)

@Emman 观察这种方法中长度的不同分布（与最初的预期相比），无论它们在您的情况下是否有意义。例如，调用``l_subsetted %>% lapply(.,length) %>% do.call(c,.) %>% table``并观察中值为``2``的钟形直方图。另一方面，OP 代码中的原始实验将生成均匀分布。这对于预期的实验设计来说可能是一个至关重要的差异 (2认同)

归档时间：	4 年，1 月前
查看次数：	265 次
最近记录：	4 年，1 月前