新数据框列作为另一个数据框的函数（摘要）对我不起作用

Question

新数据框列作为另一个数据框的函数（摘要）对我不起作用

我想创建一个新的计算列（另一列文本的摘要）。为了让您重现，我创建了一个 df 作为可重现的示例：

df <- data.frame(name = replicate(1000, paste(sample(LETTERS, 20, replace=TRUE), collapse="")),stringsAsFactors=FALSE)

> head(df,3)
              name
1 ZKBOZVFKNJBRSDWTUEYR
2 RQPHUECABPQZLKZPTFLG
3 FTBVBEQTRLLUGUVHDKAY

Run Code Online (Sandbox Code Playgroud)

现在我想要第二列，其中每行都有“名称”列的摘要这工作得很好，但速度很慢（每个 md5 都不同，它是名称列的相应摘要）：

> df$md5 <- sapply(df$name, digest)   
> head(df, 3)
              name                              md5
1 ZKBOZVFKNJBRSDWTUEYR b8d93a9fe6cefb7a856e79f54bac01f2
2 RQPHUECABPQZLKZPTFLG 52f6acbd939df27e92232904ce094053
3 FTBVBEQTRLLUGUVHDKAY a401a8bc18f0cb367435b77afd353078

Run Code Online (Sandbox Code Playgroud)

但这（使用 dplyr）不起作用，我不明白为什么：每行的 md5 都是相同的！事实上，它是完整 df$name 的摘要，包括所有行。请问有人可以向我解释一下吗？

> df <- mutate(df, md5=digest(name))
> head(df, 3)
                  name                              md5
1 ZKBOZVFKNJBRSDWTUEYR 10aa31791d0b9288e819763d9a41efd8
2 RQPHUECABPQZLKZPTFLG 10aa31791d0b9288e819763d9a41efd8
3 FTBVBEQTRLLUGUVHDKAY 10aa31791d0b9288e819763d9a41efd8

Run Code Online (Sandbox Code Playgroud)

再次，如果我采用数据表方式，似乎无法使用新变量的标准方式：

> dt <- data.table(df)
> dt[, md5:=digest(name)]  
> head(dt,3)
                   name                              md5
1: ZKBOZVFKNJBRSDWTUEYR 10aa31791d0b9288e819763d9a41efd8
2: RQPHUECABPQZLKZPTFLG 10aa31791d0b9288e819763d9a41efd8
3: FTBVBEQTRLLUGUVHDKAY 10aa31791d0b9288e819763d9a41efd8

Run Code Online (Sandbox Code Playgroud)

如果我强制分组，那么它会再次起作用（但速度很慢）：

> dt[,md5:=digest(name), by=name]   
> head(dt, 3)
                   name                              md5
1: ZKBOZVFKNJBRSDWTUEYR b8d93a9fe6cefb7a856e79f54bac01f2
2: RQPHUECABPQZLKZPTFLG 52f6acbd939df27e92232904ce094053
3: FTBVBEQTRLLUGUVHDKAY a401a8bc18f0cb367435b77afd353078

Run Code Online (Sandbox Code Playgroud)

我还测试了 Tapply 和工作（创建一个因素，但我的真实数据有数百万行，而且速度非常慢）。

然后，首先，有人可以向我解释为什么 dplyr mutate 不采用每行的值来计算摘要，以及为什么数据表符号会发生相同的想法（除非我分组）？

其次，是否有一种更快的方法来计算所有行的摘要？

Answer 1

Jaa*_*aap 6

考虑到您有一个非常大的数据集，最好在更大的数据集上测试不同的方法（在本例中，我使用 100000 行，更大的数据集在我的系统上需要很长时间）：

df <- data.frame(name = replicate(1e5, paste(sample(LETTERS, 20, replace=TRUE), collapse="")), stringsAsFactors=FALSE)

Run Code Online (Sandbox Code Playgroud)

首先，让我们考虑几种可用的方法：

# base R
df$md5 <- sapply(df$name, digest)

# data.table (grouping by name, based on the assumption that all names are unique)
dt[, md5:=digest(name), name]

# data.table with a unique identifier for each row
dt[,indx:=.I][, md5:=digest(name), indx]

# dplyr (grouping by name, based on the assumption that all names are unique)
df %>% group_by(name) %>% mutate(md5=digest(name))

# dplyr with rowwise (from the other answer)
df %>% rowwise() %>% mutate(md5=digest(name))

Run Code Online (Sandbox Code Playgroud)

其次，测试哪种方法最快：

library(rbenchmark)
benchmark(replications = 10, order = "elapsed", columns = c("test", "elapsed", "relative"),
          baseR = df$md5 <- sapply(df$name, digest),
          dtbl1 = dt[, md5:=digest(name), name],
          dtbl2 = dt[,indx:=.I][, md5:=digest(name), indx],
          dplyr = df %>% group_by(name) %>% mutate(md5=digest(name)),
          rowwi = df %>% rowwise() %>% mutate(md5=digest(name)))

Run Code Online (Sandbox Code Playgroud)

这使：

   test elapsed relative
2 dtbl1  77.878    1.000
3 dtbl2  78.343    1.006
1 baseR  81.399    1.045
5 rowwi 118.799    1.525
4 dplyr 129.748    1.666

Run Code Online (Sandbox Code Playgroud)

因此，坚持使用基本 R 解决方案根本不是一个糟糕的选择。我怀疑它在真实数据集上运行缓慢的原因可能是函数digest，而不是某个包/函数的某些不当行为。

归档时间：	10 年前
查看次数：	1382 次
最近记录：	7 年，7 月前