如何使用 dplyr 操作长表数据以进行关联,但无需将数据转置为宽格式

Sør*_*ill 5 r dplyr tidyr

我有一些数据代表患者(id)的重复(会话A和B)测量(var.x)。我的数据很整洁(即长格式表,每列中有一个变量,每行有一个观察值)......像这样:

| id | var.1 | var.2 | session |
--------------------------------
|  1 |  1.1  |   11  |    A    |
|  1 |  1.9  |   12  |    B    |
|  2 |  1.2  |   15  |    A    |
|  2 |  1.4  |   14  |    B    |
Run Code Online (Sandbox Code Playgroud)

我想对会话 A 和 B 中的配对(按 id)数据(例如 var.1)进行相关分析。换句话说,重复测量之间的相关系数是多少。

如果我将数据转置/旋转/融化/传播为宽格式,如下所示,这并不难做到:

| id | var.1.A | var.2.A | var.1.B | var.2.B |
----------------------------------------------
|  1 |  1.1    |   11    |   1.9   |   12    |
|  2 |  1.2    |   15    |   1.4   |   14    |
Run Code Online (Sandbox Code Playgroud)

...然后我可以简单地 cor(var.1.A, var.1.B)。我意识到 dplyr/tidyr 有用于此目的的收集/传播/分离/联合命令,但是这对我来说似乎不整洁且不够优雅,因为我基本上必须复制我的数据。

有没有办法使用 dplyr 来做到这一点,而不需要重新调整数据?

我正在思考以下内容:

data %>% 
    select(id, var.1, session) %>%
    do( cor( filter(session=='A', filter(session=='B')) 
Run Code Online (Sandbox Code Playgroud)

...但显然这不起作用,我还需要以某种方式指定数据是配对的(通过 id)。

akr*_*run 1

我们可以尝试任dplyrdata.table方法。grep假设我们想要找到“var”列的相关性,我们使用(“nm1”)和自定义函数( )创建列的索引f1。我们使用Mapinsidedo来获取cor每个“var”列的 。我们使用“var”列作为第一个输入,即“x”,使用“session”作为“y”。

nm1 <- grep('^var', names(data))
f1 <- function(x,y) cor(x[y=='A'], x[y=='B']) 
library(dplyr)
data %>% 
      do({data.frame(Map(f1, .[nm1], list(.$session)))})
#   var.1 var.2
#1    -1     1
Run Code Online (Sandbox Code Playgroud)

以类似的方式,我们可以cor使用data.table.

library(data.table)
setDT(data)[, Map(f1, .SD[, nm1, with=FALSE], list(session)) ]
#   var.1 var.2
#1:    -1     1
Run Code Online (Sandbox Code Playgroud)

如果我们正在使用base R

mapply(f1, data[nm1], list(data$session))
# var.1 var.2 
# -1     1 
Run Code Online (Sandbox Code Playgroud)

如果我们想转换为wide格式,我们可以使用iedcast的开发版本,因为它可以采用多列。data.tablev1.9.5value.var

 dW <- dcast(setDT(data), id~session, value.var=c('var.1', 'var.2'))[, id:=NULL]
 dW
 #   var.1_A var.1_B var.2_A var.2_B
 #1:     1.1     1.9      11      12
 #2:     1.2     1.4      15      14
Run Code Online (Sandbox Code Playgroud)

我们可以转换为matrix、子集、应用cor并获取diag值。

 m1 <- as.matrix(dW)
 diag(cor(m1[,c(TRUE, FALSE)], m1[,c(FALSE, TRUE)]))
 #[1] -1  1
Run Code Online (Sandbox Code Playgroud)

数据

data <- structure(list(id = c(1L, 1L, 2L, 2L), var.1 = c(1.1, 1.9, 1.2, 
1.4), var.2 = c(11L, 12L, 15L, 14L), session = c("A", "B", "A", 
"B")), .Names = c("id", "var.1", "var.2", "session"), 
class = "data.frame", row.names = c(NA, -4L))
Run Code Online (Sandbox Code Playgroud)