将特定于组的文本/数据添加到 R/ggplot2 中的分面图中

Question

将特定于组的文本/数据添加到 R/ggplot2 中的分面图中

我正在比较大型基因表达实验中重复样本之间的组内相关性，其中我有多个独立的生物组 - 想法是查看是否有任何组的相关性比其他组低得多，表明是潜在样本混淆或其他错误。

我正在使用 ggplot 来绘制每个重复对的表达式值。我还希望能够将相关系数和 p 值添加到我通过summarize和获得的图的每个面板中cor.test。您可以使用此代码来获得总体思路：在中exp1，重复项是相关的，但在中不相关exp2。

library(tidyverse)

df <- data.frame(exp=c(rep('exp1', 100), rep('exp2', 100)), a=rnorm(200, 1000, 200))
df <- mutate(df, b=ifelse(exp=='exp1', a*rnorm(100,1,0.05), rnorm(100, 1000, 200)))
head(df)
tail(df)

df %>% ggplot(aes(x=a, y=b))+
  geom_point() +
  facet_wrap(~exp)

group_by(df, exp) %>% 
  summarize(corr=cor.test(a,b)$estimate, pval=cor.test(a,b)$p.value)

Run Code Online (Sandbox Code Playgroud)

这是我通过生成的图ggplot，我手动添加了最后得到的 R 和 p 值。但是，当然，如果我有很多样本对要分析，那么能够在ggplot调用中自动添加这些样本对会很好。我只是不知道该怎么做。

Answer 1

cam*_*lle 5

无论出于何种原因，如果您想自己构建它而不是使用ggpubr函数，您可以创建汇总数据、格式化标签并使用geom_text.

我正在格式化统计数据，以便 R 具有固定的 3 位有效数字，而 p 具有 3 位数字，回退到科学记数法。我将这些列的名称更改summarise为 R 和 p 以制作下面的标签。重塑为长数据并使用以下方法创建新列unite：

library(tidyverse)
...

group_by(df, exp) %>% 
  summarize(R = cor.test(a, b)$estimate, p = cor.test(a, b)$p.value) %>%
  mutate(R = formatC(R, format = "fg", digits = 3),
         p = formatC(p, format = "g", digits = 3)) %>%
  gather(key = measure, value = value, -exp) %>%
  unite("stat", measure, value, sep = " = ")
#> # A tibble: 4 x 2
#>   exp   stat        
#>   <chr> <chr>       
#> 1 exp1  R = 0.965   
#> 2 exp2  R = 0.0438  
#> 3 exp1  p = 1.14e-58
#> 4 exp2  p = 0.665

Run Code Online (Sandbox Code Playgroud)

然后对于每个组，我想折叠两个标签，用换行符分隔\n。这是一个可以很好扩展的地方——你可能有更多的汇总统计数据要显示，但这应该仍然有效。

summ <- group_by(df, exp) %>% 
  summarize(R = cor.test(a, b)$estimate, p = cor.test(a, b)$p.value) %>%
  mutate(R = formatC(R, format = "fg", digits = 3),
         p = formatC(p, format = "g", digits = 3)) %>%
  gather(key = measure, value = value, -exp) %>%
  unite("stat", measure, value, sep = " = ") %>%
  group_by(exp) %>%
  summarise(both_stats = paste(stat, collapse = "\n"))

summ
#> # A tibble: 2 x 2
#>   exp   both_stats               
#>   <chr> <chr>                    
#> 1 exp1  "R = 0.965\np = 1.14e-58"
#> 2 exp2  "R = 0.0438\np = 0.665"

Run Code Online (Sandbox Code Playgroud)

在中geom_text，我将 x 坐标设置为-Inf，这将获取所有 x 值的最小值，并将 y 坐标设置为Inf所有 y 值的最大值。这会将标签放在左上角，而不管数据中的值如何。

然后，有一件事我不喜欢这里的黑客攻击hjust和vjust以外的目的的范围为0至1，但nudge_x/nudge_y不会做，因为被设置为无穷大值的任何东西。

df %>% 
  ggplot(aes(x = a, y = b)) +
  geom_point() +
  geom_text(aes(x = -Inf, y = Inf, label = both_stats), data = summ, 
            hjust = -0.1, vjust = 1.1, lineheight = 1) +
  facet_wrap(~ exp)

Run Code Online (Sandbox Code Playgroud)

^{由reprex 包(v0.2.1)于 2018 年 11 月 14 日创建}

归档时间：	7 年前
查看次数：	687 次
最近记录：	7 年前