int*_*ert 8 python data-visualization matplotlib seaborn
我想知道为什么在海生图书馆中有箱线图时会出现箱线图。
我知道一件事,boxen plot优化了表示数据的方式,尤其是对于大型数据集,但我不知道为什么,除此之外,我没有任何充分的理由使用boxen plot。
箱线图将中位数显示为中心线(第 50 个百分位数),然后将第 25 个和第 75 个百分位数显示为方框边界。然后使用 IQR 方法计算异常值边界(例如,上边界为 1.5 * IQR + Q3)。Q3 是数据的第 3 个四分位数或第 75 个百分位数(75% 的数据低于此值)。离群点须之外的离群点显示为不同的点。
Boxenplots(在原始论文和 lvplot R 包中实际上称为字母值图)以不同的方式显示分布,并且更适合更大的数据集。经典箱线图可能有太多的异常值,并且不会显示太多关于分布的信息。字母值图 (boxenplots) 以中位数(Q2,第 50 个百分位数)作为中心线开始。向外的每个连续级别包含剩余数据的一半。所以从中心线出来的前两个部分包含 50% 的数据。之后,接下来的两个部分包含 25% 的数据。这一直持续到我们处于异常值级别。每个级别的阴影都较浅。有 4 种计算异常值的方法(在论文中描述,在 seaborn 中可用)。默认情况下,每个尾部最终会有大约 5-8 个异常值。
我用 Diziet 的漂亮图来说明:
该原纸(从作者包括哈德利威克姆)在seaborn boxenplot文档链接。