Plotly:如何从长格式或宽格式的熊猫数据框制作线图?

ves*_*and 6 python plotly plotly-python

(这是一个自我回答的帖子,通过不必解释 plotly 如何最好地处理长格式和宽格式数据,帮助其他人缩短他们对 plotly 问题的答案)


我想在尽可能少的行中基于 Pandas 数据框构建一个情节图。我知道你可以使用 plotly.express 来做到这一点,但是这对于我称之为标准熊猫数据框的东西来说是失败的;描述行顺序的索引和描述数据框中值名称的列名:

示例数据框:

    a           b           c
0   100.000000  100.000000  100.000000
1   98.493705   99.421400   101.651437
2   96.067026   98.992487   102.917373
3   95.200286   98.313601   102.822664
4   96.691675   97.674699   102.378682
Run Code Online (Sandbox Code Playgroud)

一次尝试:

fig=px.line(x=df.index, y = df.columns)
Run Code Online (Sandbox Code Playgroud)

这引发了一个错误:

ValueError:所有参数都应该具有相同的长度。参数的长度y是 3,而前面的参数 ['x'] 的长度是 100`

ves*_*and 13

在这里,您尝试使用宽格式的 Pandas 数据框作为px.line. 并且plotly.express旨在与长格式的数据帧一起使用,通常称为整洁数据看一看。没有人比 Wickham 更好地解释它)。许多人,尤其是那些因多年使用 Excel 而受伤的人,经常发现以宽格式组织数据更容易。那么有什么区别呢?

宽格式:

  • 数据在单独的列中与每个不同的数据变量一起显示
  • 每列只有一种数据类型
  • 缺失值通常表示为 np.nan
  • plotly.graphobjects ( go)搭配使用效果最佳
  • 线条通常使用以下方法添加到图形中 fid.add_traces()
  • 颜色通常分配给每个迹线

例子:

            a          b           c
0   -1.085631    0.997345   0.282978
1   -2.591925    0.418745   1.934415
2   -5.018605   -0.010167   3.200351
3   -5.885345   -0.689054   3.105642
4   -4.393955   -1.327956   2.661660
5   -4.828307    0.877975   4.848446
6   -3.824253    1.264161   5.585815
7   -2.333521    0.328327   6.761644
8   -3.587401   -0.309424   7.668749
9   -5.016082   -0.449493   6.806994
Run Code Online (Sandbox Code Playgroud)

长格式:

  • 数据显示为一列包含所有值,另一列列出值的上下文
  • 缺失值根本不包含在数据集中。
  • plotly.express ( px)一起使用效果最好
  • 颜色由默认颜色循环设置并分配给每个唯一变量

例子:

    id  variable    value
0   0   a        -1.085631
1   1   a        -2.591925
2   2   a        -5.018605
3   3   a        -5.885345
4   4   a        -4.393955
... ... ... ...
295 95  c        -4.259035
296 96  c        -5.333802
297 97  c        -6.211415
298 98  c        -4.335615
299 99  c        -3.515854
Run Code Online (Sandbox Code Playgroud)

怎么从宽变长

df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])
Run Code Online (Sandbox Code Playgroud)

下面的两个片段将产生完全相同的图:

在此处输入图片说明

如何使用 px 绘制长数据?

fig = px.line(df, x='id', y='value', color='variable')
Run Code Online (Sandbox Code Playgroud)

如何使用 go 绘制宽数据?

colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
Run Code Online (Sandbox Code Playgroud)

从它的外观来看,go是否更复杂并且提供了更多的灵活性?嗯,是。和不。您可以轻松地使用px并添加任何go您想要的对象来构建图形!

完整的代码片段:

import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)  
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index

# plotly.graph_objects
colors = px.colors.qualitative.Plotly
fig = go.Figure()
fig.add_traces(go.Scatter(x=df['id'], y = df['a'], mode = 'lines', line=dict(color=colors[0])))
fig.add_traces(go.Scatter(x=df['id'], y = df['b'], mode = 'lines', line=dict(color=colors[1])))
fig.add_traces(go.Scatter(x=df['id'], y = df['c'], mode = 'lines', line=dict(color=colors[2])))
fig.show()
Run Code Online (Sandbox Code Playgroud)

完整的 px 片段:

import numpy as np
import pandas as pd
import plotly.express as px
from plotly.offline import iplot

# dataframe of a wide format
np.random.seed(123)
X = np.random.randn(100,3)  
df=pd.DataFrame(X, columns=['a','b','c'])
df=df.cumsum()
df['id']=df.index

# dataframe of a long format
df = pd.melt(df, id_vars='id', value_vars=df.columns[:-1])

# plotly express
fig = px.line(df, x='id', y='value', color='variable')
fig.show()
Run Code Online (Sandbox Code Playgroud)

  • @mcat 不客气!Wickhams 对 R 的贡献是我在使用 R 时最怀念的。关于这个问答,我已经考虑了很长一段时间了。当我最终发布它时,新的 px 功能第二天就发布了...... (2认同)

小智 5

您可以更改 pandas 绘图后端以使用plotly

import pandas as pd
pd.options.plotting.backend = "plotly"
Run Code Online (Sandbox Code Playgroud)

然后,要获得无花果,您需要编写的是:

fig = df.plot()
Run Code Online (Sandbox Code Playgroud)

Fig.show() 的结果

fig.show()显示上图。