Jac*_*b H 2 performance loops r vectorization
library(dplyr)
Run Code Online (Sandbox Code Playgroud)
我有以下数据集
set.seed(123)
n <- 1e6
d <- data.frame(a = letters[sample(5, n, replace = TRUE)], b = letters[sample(5, n, replace = TRUE)], c = letters[sample(5, n, replace = TRUE)], d = letters[sample(5, n, replace = TRUE)])
Run Code Online (Sandbox Code Playgroud)
我想计算每一行中不同字母的数量.为此,我使用
sapply(as.data.frame(t(d)), function(x) n_distinct(x))
Run Code Online (Sandbox Code Playgroud)
但是因为这种方法实现了一个循环,所以它很慢.你对如何提高速度有什么建议吗?
我的笔记本电脑是一块垃圾,所以......
system.time(sapply(as.data.frame(t(d)), function(x) n_distinct(x)))
user system elapsed
185.78 0.86 208.08
Run Code Online (Sandbox Code Playgroud)
如果不同的值不是很多,您可以尝试:
d<-as.matrix(d)
uniqueValues<-unique(as.vector(d))
Reduce("+",lapply(uniqueValues,function(x) rowSums(d==x)>0))
Run Code Online (Sandbox Code Playgroud)
对于您提供的示例,这比其他解决方案快得多,并产生相同的结果.