muo*_*uon 10 python pivot-table reshape pandas
对于这样的数据帧:
d = {'id': [1,1,1,2,2], 'Month':[1,2,3,1,3],'Value':[12,23,15,45,34], 'Cost':[124,214,1234,1324,234]}
df = pd.DataFrame(d)
Cost Month Value id
0 124 1 12 1
1 214 2 23 1
2 1234 3 15 1
3 1324 1 45 2
4 234 3 34 2
Run Code Online (Sandbox Code Playgroud)
我应用pivot_table
df2 = pd.pivot_table(df,
values=['Value','Cost'],
index=['id'],
columns=['Month'],
aggfunc=np.sum,
fill_value=0)
Run Code Online (Sandbox Code Playgroud)
得到df2:
Cost Value
Month 1 2 3 1 2 3
id
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
Run Code Online (Sandbox Code Playgroud)
是否有一种简单的方法来格式化结果数据帧列名称,如
id Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
Run Code Online (Sandbox Code Playgroud)
如果我做:
df2.columns =[s1 + str(s2) for (s1,s2) in df2.columns.tolist()]
Run Code Online (Sandbox Code Playgroud)
我明白了:
Cost1 Cost2 Cost3 Value1 Value2 Value3
id
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
Run Code Online (Sandbox Code Playgroud)
如何摆脱额外的水平?
谢谢!
muo*_*uon 13
使用来自@ chrisb的回答的线索,这给了我以后的确切内容:
df2.reset_index(inplace=True)
Run Code Online (Sandbox Code Playgroud)
这使:
id Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
Run Code Online (Sandbox Code Playgroud)
如果有多个索引列,这篇文章 很好地解释了它.为了完整,这里是如何:
df2.columns = [' '.join(col).strip() for col in df2.columns.values]
Run Code Online (Sandbox Code Playgroud)
'id'
是索引名称,您可以将其设置为None
要删除.
In [35]: df2.index.name = None
In [36]: df2
Out[36]:
Cost1 Cost2 Cost3 Value1 Value2 Value3
1 124 214 1234 12 23 15
2 1324 0 234 45 0 34
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
23895 次 |
最近记录: |