箱线图与箱线图有何不同?

int*_*ert 8 python data-visualization matplotlib seaborn

我想知道为什么在海生图书馆中有箱线图时会出现箱线图。
我知道一件事,boxen plot优化了表示数据的方式,尤其是对于大型数据集,但我不知道为什么,除此之外,我没有任何充分的理由使用boxen plot。

Diz*_*ahi 13

根据我对描述“boxenplot”(或作者命名的“字母值图”)概念的论文的理解,目标是提供比boxplot(尤其是当大量异常值时)更好地表示数据分布值存在),但无需选择特定参数,例如对于 使用的 KDE 函数violinplot,如果选择不当,可能会扭曲分布的外观

以下是三种类型的图的比较: 在此处输入图片说明


wor*_*ise 9

箱线图将中位数显示为中心线(第 50 个百分位数),然后将第 25 个和第 75 个百分位数显示为方框边界。然后使用 IQR 方法计算异常值边界(例如,上边界为 1.5 * IQR + Q3)。Q3 是数据的第 3 个四分位数或第 75 个百分位数(75% 的数据低于此值)。离群点须之外的离群点显示为不同的点。

Boxenplots(在原始论文和 lvplot R 包中实际上称为字母值图)以不同的方式显示分布,并且更适合更大的数据集。经典箱线图可能有太多的异常值,并且不会显示太多关于分布的信息。字母值图 (boxenplots) 以中位数(Q2,第 50 个百分位数)作为中心线开始。向外的每个连续级别包含剩余数据的一半。所以从中心线出来的前两个部分包含 50% 的数据。之后,接下来的两个部分包含 25% 的数据。这一直持续到我们处于异常值级别。每个级别的阴影都较浅。有 4 种计算异常值的方法(在论文中描述,在 seaborn 中可用)。默认情况下,每个尾部最终会有大约 5-8 个异常值。

我用 Diziet 的漂亮图来说明:

在此处输入图片说明

原纸(从作者包括哈德利威克姆)在seaborn boxenplot文档链接。