Lis*_*ann 1 loops for-loop r dataframe for-in-loop
我有两个数据帧:
df1<- as.data.frame(matrix(1:15, ncol=5))
df2<- as.data.frame(matrix(30:44,ncol=5))
Run Code Online (Sandbox Code Playgroud)
通过使用我想要计算zscore的两个数据帧.功能是:
z = (X - u)/ O
Run Code Online (Sandbox Code Playgroud)
df1包含所有X值,df2数据帧的每一行包含用于计算均值和sd的值.我生成一个循环,为df1的第一列中的每个值计算z得分.但现在我的问题是:如何计算整个数据帧的z得分?
test <- list()
for (i in 1:nrow(df1) {
zscore<- (df1[i,1] - (apply(df2[i,],1,mean))) / (apply(df2[i,],1,sd))
test[[i]] <- matrix(zscore)
i <- 1+1
}
Run Code Online (Sandbox Code Playgroud)
谢谢你们!
[我想你在这里有向后/向后排.z分数通常应用于变量,R期望在变量中.我在下面写的内容遵循惯例.如果您真的想按行标准化,请相应更改.
sweep()是你的通用朋友.我们计算均值和标准差,然后从数据框中扫描(在这种情况下减去)它们df1:
## compute column means and sd
mns <- colMeans(df2) ## rowMeans if by rows
sds <- apply(df2, 2, sd) ## 2 -> 1 if by rows
## Subtract the respective mean from each column
df3 <- sweep(df1, 2, mns, "-") ## 2 -> 1 if by rows
## Divide by the respective sd
df3 <- sweep(df3, 2, sds, "/") ## 2 -> 1 if by rows
Run Code Online (Sandbox Code Playgroud)
这使:
R> df3
V1 V2 V3 V4 V5
1 -30 -30 -30 -30 -30
2 -29 -29 -29 -29 -29
3 -28 -28 -28 -28 -28
Run Code Online (Sandbox Code Playgroud)
我们可以通过df3以矢量化方式对第一列进行计算来检查这是否有效:
R> (df1[,1] - mean(df2[,1])) / sd(df2[,1])
[1] -30 -29 -28
Run Code Online (Sandbox Code Playgroud)
对于这种特殊的情况下,还可以使用scale()功能,并提供自己的center和scale,各自的平均值和标准偏差
R> scale(df1, center = mns, scale = sds)
V1 V2 V3 V4 V5
[1,] -30 -30 -30 -30 -30
[2,] -29 -29 -29 -29 -29
[3,] -28 -28 -28 -28 -28
attr(,"scaled:center")
V1 V2 V3 V4 V5
31 34 37 40 43
attr(,"scaled:scale")
V1 V2 V3 V4 V5
1 1 1 1 1
Run Code Online (Sandbox Code Playgroud)