Seaborn:Violinplot 在变量太多时遇到困难?

Coo*_*654 1 python data-visualization matplotlib pandas seaborn

我想使用 seaborn 用 violinplots 来可视化我的整个 Pandas 数据框,并且我认为我已经进行了必要的更正,以便为我的数据框拥有的 270 个变量生成一个大图。

但是,无论我做什么,小提琴图都只显示每个变量的内部迷你箱线图(正如这里描述的另一个问题),而不是它们的 kde:

fig, ax = plt.subplots(figsize=(50,5))
ax.set_ylim(-6, 6)

a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);

plt.savefig('massive_violinplot.png', figsize=(50,5), dpi=220)
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

(为裁剪图道歉,整个事情太大而无法发布)

而以下代码,使用相同的pd.Dataframe,但只显示前六个变量,显示正确:

fig, ax = plt.subplots(figsize=(10,5))
ax.set_ylim(-6, 6)

a = sns.violinplot(x='variable', y='value', data=pd.melt(train_norm.iloc[:,:6]), ax=ax)
a.set_xticklabels(a.get_xticklabels(), rotation=90);

plt.savefig('massive_violinplot.png', figsize=(10,5), dpi=220)
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

我怎么能得到像上面所有变量的图表,用适当的小提琴图来显示他们的kde?

Sto*_*ica 5

这与变量的数量或地块大小无关,而是与变量分布的巨大差异有关。我现在无法访问你的数据,所以我会用一个虚构的数据集来说明它。您可以跟随您的数据集,选择离散度较大的三个变量和离散度较小的三个变量。作为分散测量,您可以使用方差甚至数据范围(如果您没有疯狂的长尾)或其他不同的东西,我不确定什么会更好。

rs = np.random.RandomState(42)
data = rs.randn(100, 6)
data[:, :3] *= 20
df = pd.DataFrame(data)
Run Code Online (Sandbox Code Playgroud)

看看如果我们用公共轴绘制密度,那么它们可以直接比较会发生什么。

df.plot(kind='kde', subplots=True, layout=(3, 2), sharex=True, sharey=True)
plt.tight_layout()
Run Code Online (Sandbox Code Playgroud)

具有公共轴的密度

这或多或少与您在 seaborn 小提琴情节中看到的相同,但当然是换位的。

sns.violinplot(x='variable', y='value', data=pd.melt(df))
Run Code Online (Sandbox Code Playgroud)

默认的seaborn小提琴图

这通常非常适合比较变量,因为您可以将宽度差异视为密度差异。不幸的是,具有更多分散的变量的小提琴是如此狭窄,以至于您根本看不到宽度并且您失去了任何形状感。另一方面,分散较小的变量显得太短(实际上在您的数据集中,其中一些只是水平线)。

对于第一个问题,您可以通过 using 使小提琴使用所有可用的水平空间,scale='width'但是您不再可以比较变量之间的密度。峰的宽度相同,但密度不同。

sns.violinplot(x='variable', y='value', data=pd.melt(df), scale='width')
Run Code Online (Sandbox Code Playgroud)

带有 scale='width' 的 Seaborn 小提琴图

顺便说一下,这就是 matplotlib 的小提琴图在默认情况下所做的。

plt.violinplot(df.T)
Run Code Online (Sandbox Code Playgroud)

Matplotlib 默认小提琴图。

对于第二个问题,我认为您唯一的选择是以某种方式对变量进行标准化或标准化。

sns.violinplot(x='variable', y='value', data=pd.melt((df - df.mean()) / df.std()))
Run Code Online (Sandbox Code Playgroud)

标准化小提琴图

现在,您可以分别更清晰地查看每个变量(它们有多少个模式、它们的偏斜程度、尾部有多长……),但是您既不能比较变量的尺度,也不能比较变量的离散程度。

这个故事的寓意是你不能一次看到所有的东西,你必须根据你在数据中寻找什么来挑选。