R.S*_*.S. 5 python moving-average pandas
我有一个长格式数据框,两列中有重复值,另一列中有数据。我想找到每个组的 SMA。我的问题是:rolling()简单地忽略了数据按两列分组的事实。
这是一些虚拟数据和代码。
import numpy as np
import pandas as pd
dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df
Run Code Online (Sandbox Code Playgroud)
ix1 ix2 数据 0 0 2019-01-01 0 1 0 2019-01-02 1 2 0 2019-01-03 2 3 0 2019-01-04 3 0 1 2019-01-01 4 1 1 2019-01-02 5 2 1 2019-01-03 6 3 1 2019-01-04 7
现在,当我对这些数据执行分组滚动平均值时,我得到如下输出:
import numpy as np
import pandas as pd
dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df
Run Code Online (Sandbox Code Playgroud)
数据
ix1 ix2
0 2019-01-01 南
2019-01-02 0.5
2019-01-03 1.5
2019-01-04 2.5
1 2019-01-01 3.5
2019-01-02 4.5
2019-01-03 5.5
2019-01-04 6.5
期望的输出: 然而,我真正想要的是:
SMA
ix1 ix2
0 2019-01-01 南
2019-01-02 0.5
2019-01-03 1.5
2019-01-04 2.5
1 2019-01-01 南
2019-01-02 4.5
2019-01-03 5.5
2019-01-04 6.5
感谢您对此的帮助。
groupby在第一级 ( ix1) 中使用另一个rolling:
df1 = (df.groupby(['ix1','ix2'])
.agg({'data':'mean'})
.groupby(level=0, group_keys=False)
.rolling(2)
.mean())
print (df1)
data
ix1 ix2
0 2019-01-01 NaN
2019-01-02 0.5
2019-01-03 1.5
2019-01-04 2.5
1 2019-01-01 NaN
2019-01-02 4.5
2019-01-03 5.5
2019-01-04 6.5
Run Code Online (Sandbox Code Playgroud)
在您的解决方案中,聚合后返回一列DataFrame,因此rolling与所有行进行链接,而不是像需要那样按组进行:
print(df.groupby(['ix1','ix2']).agg({'data':'mean'}))
data
ix1 ix2
0 2019-01-01 0
2019-01-02 1
2019-01-03 2
2019-01-04 3
1 2019-01-01 4
2019-01-02 5
2019-01-03 6
2019-01-04 7
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5077 次 |
| 最近记录: |