如何绘制两个ggplot密度分布之间的差异？

Question

如何绘制两个ggplot密度分布之间的差异？

我想使用ggplot2来说明两个相似的密度分布之间的差异。这是我拥有的数据类型的一个玩具示例：

library(ggplot2)

# Make toy data
n_sp  <- 100000
n_dup <- 50000
D <- data.frame( 
    event=c(rep("sp", n_sp), rep("dup", n_dup) ), 
    q=c(rnorm(n_sp, mean=2.0), rnorm(n_dup, mean=2.1)) 
)

# Standard density plot
ggplot( D, aes( x=q, y=..density.., col=event ) ) +
    geom_freqpoly()

Run Code Online (Sandbox Code Playgroud)

与其像上面那样分别绘制每个类别（dup和sp）的密度，不如我绘制一条线来显示这些分布之间的差异？

在上面的玩具示例中，如果我从dup密度分布中减去了密度分布sp，则结果线将在图的左侧大于零（因为存在大量较小的sp值），而在右侧小于0（因为存在该值）是大量较大的dup值）。并不是说类型dup和的观察值可能不同sp。

更笼统地说-显示相似密度分布之间差异的最佳方法是什么？

Answer 1

ali*_*ire 3

在 ggplot 中可能有一种方法可以做到这一点，但通常情况下，预先进行计算是最简单的。在这种情况下，调用同一范围内density的每个子集q，然后减去 y 值。使用 dplyr （如果您愿意，可以转换为基本 R 或 data.table），

library(dplyr)
library(ggplot2)

D %>% group_by(event) %>% 
    # calculate densities for each group over same range; store in list column
    summarise(d = list(density(q, from = min(.$q), to = max(.$q)))) %>% 
    # make a new data.frame from two density objects
    do(data.frame(x = .$d[[1]]$x,    # grab one set of x values (which are the same)
                  y = .$d[[1]]$y - .$d[[2]]$y)) %>%    # and subtract the y values
    ggplot(aes(x, y)) +    # now plot
    geom_line()

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，7 月前
查看次数：	795 次
最近记录：	8 年，7 月前