相关疑难解决方法(0)

set.seed(0)
N = 3E8
p = 0.02
x = sample(c(TRUE, FALSE), N, prob = c(p, 1-p), replace = TRUE)
y = sample(c(TRUE, FALSE), N, prob = c(p, 1-p), replace = TRUE)

Run Code Online (Sandbox Code Playgroud)

一些明显的方法:

table
bigtabulate
简单的逻辑运算(例如sum(x & y))
矢量乘法(嘘)
data.table
上面的一些,parallel从multicore包(或新parallel包)

我已经尝试了前三个选项(请参阅我的回答),但我觉得必须有更好更好的东西.

我觉得这table很慢. bigtabulate对于一对逻辑向量来说似乎有些过分.最后,进行vanilla逻辑运算看起来像一个kludge,它看了每个向量太多次(3X？7X？),更不用说它在处理期间填充了大量额外的内存,这是一个巨大的时间浪费.

向量乘法通常是一个坏主意,但是当向量稀疏时,可能会因为存储它而获得优势,然后使用向量乘法.

随意改变N和p,如果将展示的制表功能,任何有趣的行为.:)

更新1.我的第一个答案给出了三种天真方法的时间,这是相信table速度缓慢的基础.然而,要意识到的关键是"逻辑"方法效率极低.看看它在做什么:

4个逻辑向量运算
4种类型转换(逻辑到整数或FP - 用于sum)
4矢量求和 …

statistics performance r crosstab bigdata

Ite*_*tor

2017 05-23

15
推荐指数

2
解决办法

2216
查看次数

标签统计

r ×3

bigdata ×1

crosstab ×1

na ×1

nan ×1

performance ×1

r-faq ×1

statistics ×1

检测NaN,NA,Inf,-Inf等的一个功能？

在R中,如何检查两个变量名是否引用相同的底层对象？

在R中交叉制表两个大型逻辑向量的最快方法

标签 统计

标签统计