不同的分位数:Boxplot vs. Violinplot

pat*_*t-s 6 r ggplot2 quantile boxplot violin-plot

require(ggplot2)
require(cowplot)
d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
    geom_violin(fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
                , colour = "red", size = 1.5) +
    stat_boxplot(geom ='errorbar', width = 0.1)+
    geom_boxplot(width = 0.2)+
    facet_grid(. ~ Species, scales = "free_x") +
    xlab("") + 
    ylab (expression(paste("Value"))) +
    coord_cartesian(ylim = c(3.5,9.5)) + 
    scale_y_continuous(breaks = seq(4, 9, 1)) + 
    theme(axis.text.x=element_blank(),
          axis.text.y = element_text(size = rel(1.5)),
          axis.ticks.x = element_blank(),
          strip.background=element_rect(fill="black"),
          strip.text=element_text(color="white", face="bold"),
          legend.position = "none") +
    background_grid(major = "xy", minor = "none") 
Run Code Online (Sandbox Code Playgroud)

boxplot vs. violinplot

据我所知,箱形图中的方框末端分别代表25%和75%的分位数,中位数= 50%.因此,他们应等于其通过绘制的0.25/0.5/0.75分位数geom_violindraw_quantiles = c(0.25, 0.5, 0.75)参数.

中位数和50%分位数拟合.然而,0.25和0.75分位数都不适合箱线图的盒子末端(见图,特别是'virginica'facet).

参考文献:

  1. http://docs.ggplot2.org/current/geom_violin.html

  2. http://docs.ggplot2.org/current/geom_boxplot.html

cof*_*nky 7

这对于评论来说太长了,所以我将其作为答案发布.我看到两个潜在的分歧来源.首先,我的理解是,boxplot指的是boxplot.stats使用hinges非常相似但不一定与分位数相同的. ?boxplot.stats说:

两个"铰链"是第一和第三四分位数的版本,即接近分位数(x,c(1,3)/ 4).铰链等于奇数n的四分位数(其中n < - 长度(x))并且对于偶数n而言是不同的.尽管四分位数仅对n %% 4 == 1(n = 1 mod 4)的观测值相等,但对于n %% 4 == 2(n = 2 mod 4),铰链也是如此,并且在两个中间否则观察.

因此,hinge vs quantile区别可能是差异的一个来源.

其次,geom_violin是指密度估计.这里的源代码指向一个函数StatYdensity,它引导我到这里.我找不到这个函数compute_density,但我认为(也是由于帮助文件中的一些指针)它本质density上是默认使用高斯核估计来估计密度.这可能(或可能不)解释差异,但是

by(d$Sepal.Length, d$Species, function(x) boxplot.stats(x, coef=5)$stats )
by(d$Sepal.Length, d$Species, function(v) quantile(density(v)$x))
Run Code Online (Sandbox Code Playgroud)

确实显示出不同的价值观.因此,我猜测差异是由于我们是基于观察的经验分布函数还是基于核密度估计来看分位数,尽管我承认我没有最终证明这一点.