如何使用像 KDnuggets Style 这样的 PDF 绘制比较箱线图

Plu*_*ile 0 python matplotlib boxplot python-3.x probability-density

阅读 KDnuggets 文章中理解箱线图时。我找到了一个带有概率密度函数的 Boxplot 的详细图 (pdf)

我正在尝试绘制一个比较 Boxplot 和一个概率密度函数 (pdf),如下图所示

在此处输入图片说明

我知道分别绘制基本的箱线图pdf。我对可视化的了解是最少的。我不是在问上面的图的精确复制,一个类似的细节图将不胜感激。

我对新的想法和方法持开放态度,并希望在开始深入研究之前先试探一下

如果是,是否可以用 Python 绘制上面的图,哪个包将用于绘制上面的图?有人能解释一下用 Python 绘制上面的图吗?我很高兴收到您的任何线索。

Joh*_*anC 5

这是重新创建绘图的图形元素的尝试。使用一些随机数据而不是完美的正态分布,因此您可以插入自己的数据。(要获得更完美的曲线,请生成更多样本。)

from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns

x = np.random.normal(0, 1, 1000)
mean = x.mean()
std = x.std()
q1, median, q3 = np.percentile(x, [25, 50, 75])
iqr = q3 - q1

fig, (ax1, ax2) = plt.subplots(nrows=2, sharex=True)

medianprops = dict(linestyle='-', linewidth=2, color='yellow')
sns.boxplot(x=x, color='lightcoral', saturation=1, medianprops=medianprops,
            flierprops={'markerfacecolor': 'mediumseagreen'}, whis=1.5, ax=ax1)

ticks = [mean + std * i for i in range(-4, 5)]
ticklabels = [f'${i}\\sigma$' for i in range(-4, 5)]
ax1.set_xticks(ticks)
ax1.set_xticklabels(ticklabels)
ax1.set_yticks([])
ax1.tick_params(labelbottom=True)
ax1.set_ylim(-1, 1.5)
ax1.errorbar([q1, q3], [1, 1], yerr=[-0.2, 0.2], color='black', lw=1)
ax1.text(q1, 0.6, 'Q1', ha='center', va='center', color='black')
ax1.text(q3, 0.6, 'Q3', ha='center', va='center', color='black')
ax1.text(median, -0.6, 'median', ha='center', va='center', color='black')
ax1.text(median, 1.2, 'IQR', ha='center', va='center', color='black')
ax1.text(q1 - 1.5*iqr, 0.4, 'Q1 - 1.5*IQR', ha='center', va='center', color='black')
ax1.text(q3 + 1.5*iqr, 0.4, 'Q3 + 1.5*IQR', ha='center', va='center', color='black')
# ax1.vlines([q1 - 1.5*iqr, q1, q3, q3 + 1.5*iqr], 0, -2, color='darkgrey', ls=':', clip_on=False, zorder=0)

sns.kdeplot(x, ax=ax2)
kdeline = ax2.lines[0]
xs = kdeline.get_xdata()
ys = kdeline.get_ydata()

ylims = ax2.get_ylim()
ax2.fill_between(xs, 0, ys, color='mediumseagreen')
ax2.fill_between(xs, 0, ys, where=(xs >= q1 - 1.5*iqr) & (xs <= q3 + 1.5*iqr), color='skyblue')
ax2.fill_between(xs, 0, ys, where=(xs >= q1) & (xs <= q3), color='lightcoral')
# ax2.vlines([q1 - 1.5*iqr, q1, q3, q3 + 1.5*iqr], 0, 100, color='darkgrey', ls=':', zorder=0)
ax2.set_ylim(0, ylims[1])
plt.show()
Run Code Online (Sandbox Code Playgroud)

示例图

一些备注:

  • 中位数和均值通常不重合,因此 0 西格玛可能与中位数线有些偏差。
  • Matplotlib 在最接近计算Q1 - 1.5 IQR和的数据点绘制胡须Q3 + 1.5 IQR,因此当点数不是很多时,胡须的位置可能会偏离一点。
  • 对于真实数据,分布很少看起来像完美的钟形曲线。

以下是 100 万个样本的示例:

100 万个样本的绘图