识别一行中不同元素数量的有效方法

Question

识别一行中不同元素数量的有效方法

Jac*_*b H 2 performance loops r vectorization

library(dplyr)

Run Code Online (Sandbox Code Playgroud)

我有以下数据集

set.seed(123)
n <- 1e6
d <- data.frame(a = letters[sample(5, n, replace = TRUE)], b = letters[sample(5, n, replace = TRUE)], c = letters[sample(5, n, replace = TRUE)],  d = letters[sample(5, n, replace = TRUE)])

Run Code Online (Sandbox Code Playgroud)

我想计算每一行中不同字母的数量.为此,我使用

sapply(as.data.frame(t(d)), function(x) n_distinct(x))

Run Code Online (Sandbox Code Playgroud)

但是因为这种方法实现了一个循环,所以它很慢.你对如何提高速度有什么建议吗？

我的笔记本电脑是一块垃圾,所以......

system.time(sapply(as.data.frame(t(d)), function(x) n_distinct(x)))
  user  system elapsed 
185.78    0.86  208.08

Run Code Online (Sandbox Code Playgroud)

Answer 1

nic*_*ola 5

如果不同的值不是很多,您可以尝试:

d<-as.matrix(d)
uniqueValues<-unique(as.vector(d))
Reduce("+",lapply(uniqueValues,function(x) rowSums(d==x)>0))

Run Code Online (Sandbox Code Playgroud)

对于您提供的示例,这比其他解决方案快得多,并产生相同的结果.

归档时间：	9 年，5 月前
查看次数：	76 次
最近记录：	9 年，5 月前