我在我的代码中使用colSums但我还需要总和旁边的标准偏差.我在互联网上搜索,发现这个页面只包含:
colSums
colMeans
Run Code Online (Sandbox Code Playgroud)
http://stat.ethz.ch/R-manual/R-devel/library/base/html/colSums.html
我试过这个:
colSd
Run Code Online (Sandbox Code Playgroud)
但是我收到了这个错误:
Error: could not find function "colSd"
Run Code Online (Sandbox Code Playgroud)
我如何做同样的事情,但标准偏差:
colSd
Run Code Online (Sandbox Code Playgroud)
这是代码:
results <- colSums(x,na.rm=TRUE)#### here I want colsd
Run Code Online (Sandbox Code Playgroud)
sgi*_*ibb 25
我想提供第四种(非常类似于@Thomas)方法和一些基准测试:
library("microbenchmark")
library("matrixStats")
colSdApply <- function(x, ...)apply(X=x, MARGIN=2, FUN=sd, ...)
colSdMatrixStats <- colSds
colSdColMeans <- function(x, na.rm=TRUE) {
if (na.rm) {
n <- colSums(!is.na(x)) # thanks @flodel
} else {
n <- nrow(x)
}
colVar <- colMeans(x*x, na.rm=na.rm) - (colMeans(x, na.rm=na.rm))^2
return(sqrt(colVar * n/(n-1)))
}
colSdThomas <- function(x)sqrt(rowMeans((t(x)-colMeans(x))^2)*((dim(x)[1])/(dim(x)[1]-1)))
m <- matrix(runif(1e7), nrow=1e3)
microbenchmark(colSdApply(m), colSdMatrixStats(m), colSdColMeans(m), colSdThomas(m))
# Unit: milliseconds
# expr min lq median uq max neval
# colSdApply(m) 435.7346 448.8673 456.6176 476.8373 512.9783 100
# colSdMatrixStats(m) 344.6416 357.5439 383.8736 389.0258 465.5715 100
# colSdColMeans(m) 124.2028 128.9016 132.9446 137.6254 172.6407 100
# colSdThomas(m) 231.5567 240.3824 245.4072 274.6611 307.3806 100
all.equal(colSdApply(m), colSdMatrixStats(m))
# [1] TRUE
all.equal(colSdApply(m), colSdColMeans(m))
# [1] TRUE
all.equal(colSdApply(m), colSdThomas(m))
# [1] TRUE
Run Code Online (Sandbox Code Playgroud)
colSds并且rowSds是matrixStats包中许多类似函数中的两个
使用以下内容:
colSd <- function (x, na.rm=FALSE) apply(X=x, MARGIN=2, FUN=sd, na.rm=na.rm)
Run Code Online (Sandbox Code Playgroud)
小智 5
我相信我已经找到了一个更优雅的解决方案diag(sqrt(var(data)))
这有助于我获得每列的标准差。但是,它确实会在此过程中计算一堆额外不必要的协方差(及其平方根),因此它不一定是最有效的方法。但如果你的数据很小,它的效果就很好。
编辑:我刚刚意识到这sqrt(diag(var(data)))可能更有效一些,因为它更早地删除了不必要的协方差项。
小智 5
这是计算列的标准偏差的最快和最短的方法:
sqrt(diag(cov(data_matrix)))
Run Code Online (Sandbox Code Playgroud)
由于协方差矩阵的对角线由每个变量的方差组成,我们执行以下操作:
covdiagsqrt以获得标准偏差我希望有帮助:)