pandas用groupby滚动最大值

spl*_*ter 6 python group-by dataframe python-3.x pandas

我有一个问题,让rollingPandas 的功能做我想做的.我希望每个人都能计算到目前为止的最大值.这是一个例子:

df = pd.DataFrame([[1,3], [1,6], [1,3], [2,2], [2,1]], columns=['id', 'value'])
Run Code Online (Sandbox Code Playgroud)

好像

   id  value
0   1      3
1   1      6
2   1      3
3   2      2
4   2      1
Run Code Online (Sandbox Code Playgroud)

现在我希望获得以下DataFrame:

   id  value
0   1      3
1   1      6
2   1      6
3   2      2
4   2      2
Run Code Online (Sandbox Code Playgroud)

问题是,当我这样做

df.groupby('id')['value'].rolling(1).max()
Run Code Online (Sandbox Code Playgroud)

我得到了相同的DataFrame.而当我这样做

df.groupby('id')['value'].rolling(3).max()
Run Code Online (Sandbox Code Playgroud)

我得到了一个N​​ans的DataFrame.有人可以解释如何正确使用rolling或其他一些Pandas函数来获取我想要的DataFrame吗?

Max*_*axU 8

看起来你需要cummax()而不是.rolling(N).max()

In [29]: df['new'] = df.groupby('id').value.cummax()

In [30]: df
Out[30]:
   id  value  new
0   1      3    3
1   1      6    6
2   1      3    6
3   2      2    2
4   2      1    2
Run Code Online (Sandbox Code Playgroud)

时间(使用全新的Pandas版本0.20.1):

In [3]: df = pd.concat([df] * 10**4, ignore_index=True)

In [4]: df.shape
Out[4]: (50000, 2)

In [5]: %timeit df.groupby('id').value.apply(lambda x: x.cummax())
100 loops, best of 3: 15.8 ms per loop

In [6]: %timeit df.groupby('id').value.cummax()
100 loops, best of 3: 4.09 ms per loop
Run Code Online (Sandbox Code Playgroud)

注意: 来自Pandas 0.20.0的新功能