And*_*ull 3 r probability matrix apply frequency-distribution
我有一个有n行观察的矩阵.观察是特征的频率分布.我想将频率分布转换为概率分布,其中每行的总和为1.因此,矩阵中的每个元素应除以元素行的总和.
我编写了以下R函数来完成工作,但是对于大型矩阵来说它非常慢:
prob_dist <- function(x) {
row_prob_dist <- function(row) {
return (t(lapply(row, function(x,y=sum(row)) x/y)))
}
for (i in 1:nrow(x)) {
if (i==1) p_dist <- row_prob_dist(x[i,])
else p_dist <- rbind(p_dist, row_prob_dist(x[i,]))
}
return(p_dist)
}
B = matrix(c(2, 4, 3, 1, 5, 7), nrow=3, ncol=2)
B
[,1] [,2]
[1,] 2 1
[2,] 4 5
[3,] 3 7
prob_dist(B)
[,1] [,2]
[1,] 0.6666667 0.3333333
[2,] 0.4444444 0.5555556
[3,] 0.3 0.7
Run Code Online (Sandbox Code Playgroud)
你能建议R功能完成这项工作和/或告诉我如何优化我的功能以更快地执行?
这是一次尝试,但是在数据帧而不是矩阵上:
df <- data.frame(replicate(100,sample(1:10, 10e4, rep=TRUE)))
Run Code Online (Sandbox Code Playgroud)
我尝试了一种dplyr方法:
library(dplyr)
df %>% mutate(rs = rowSums(.)) %>% mutate_each(funs(. / rs), -rs) %>% select(-rs)
Run Code Online (Sandbox Code Playgroud)
结果如下:
library(microbenchmark)
mbm = microbenchmark(
dplyr = df %>% mutate(rs = rowSums(.)) %>% mutate_each(funs(. / rs), -rs) %>% select(-rs),
t = t(t(df) / rep(rowSums(df), each=ncol(df))),
apply = t(apply(df, 1, prop.table)),
times = 100
)
Run Code Online (Sandbox Code Playgroud)

#> mbm
#Unit: milliseconds
# expr min lq mean median uq max neval
# dplyr 123.1894 124.1664 137.7076 127.3376 131.1523 445.8857 100
# t 384.6002 390.2353 415.6141 394.8121 408.6669 787.2694 100
# apply 1425.0576 1520.7925 1646.0082 1599.1109 1734.3689 2196.5003 100
Run Code Online (Sandbox Code Playgroud)
编辑:@David基准测试更符合OP,所以我建议你考虑他的方法,如果你要使用矩阵.
| 归档时间: |
|
| 查看次数: |
2208 次 |
| 最近记录: |