Mar*_*cus 7 python optimization numpy pandas pandas-groupby
鉴于DataFrame生成:
import numpy as np
import pandas as pd
from datetime import timedelta
np.random.seed(0)
rng = pd.date_range('2015-02-24', periods=14, freq='9H')
ids = [1]*5 + [2]*2 + [3]*7
df = pd.DataFrame({'id': ids, 'time_entered': rng, 'val': np.random.randn(len(rng))})
Run Code Online (Sandbox Code Playgroud)
df:
id time_entered val
0 1 2015-02-24 00:00:00 1.764052
1 1 2015-02-24 09:00:00 0.400157
2 1 2015-02-24 18:00:00 0.978738
3 1 2015-02-25 03:00:00 2.240893
4 1 2015-02-25 12:00:00 1.867558
5 2 2015-02-25 21:00:00 -0.977278
6 2 2015-02-26 06:00:00 0.950088
7 3 2015-02-26 15:00:00 -0.151357
8 3 2015-02-27 00:00:00 -0.103219
9 3 2015-02-27 09:00:00 0.410599
10 3 2015-02-27 18:00:00 0.144044
11 3 2015-02-28 03:00:00 1.454274
12 3 2015-02-28 12:00:00 0.761038
13 3 2015-02-28 21:00:00 0.121675
Run Code Online (Sandbox Code Playgroud)
我需要为每个id,除去超过从最新24小时(1天)行time_entered,因为这id。我目前的解决方案:
def custom_transform(x):
datetime_from = x["time_entered"].max() - timedelta(days=1)
x = x[x["time_entered"] > datetime_from]
return x
df.groupby("id").apply(lambda x: custom_transform(x)).reset_index(drop=True)
Run Code Online (Sandbox Code Playgroud)
它给出了正确的、预期的输出:
id time_entered val
0 1 2015-02-24 18:00:00 0.978738
1 1 2015-02-25 03:00:00 2.240893
2 1 2015-02-25 12:00:00 1.867558
3 2 2015-02-25 21:00:00 -0.977278
4 2 2015-02-26 06:00:00 0.950088
5 3 2015-02-28 03:00:00 1.454274
6 3 2015-02-28 12:00:00 0.761038
7 3 2015-02-28 21:00:00 0.121675
Run Code Online (Sandbox Code Playgroud)
但是,我的真实数据是几千万行,还有几十万个唯一ID,因此这个解决方案是不可行的(需要很长时间)。
有没有更有效的方法来过滤数据?我欣赏所有的想法!
一般来说,请避免groupby().apply(),因为它不是跨组矢量化的,更不用说如果您要返回新的数据帧(就像您的情况一样)的内存分配开销。
如何找到时间阈值,groupby().transform然后对整个数据使用布尔索引:
time_max_by_id = df.groupby('id')['time_entered'].transform('max') - pd.Timedelta('1D')
df[df['time_entered'] > time_max_by_id]
Run Code Online (Sandbox Code Playgroud)
输出:
id time_entered val
2 1 2015-02-24 18:00:00 0.978738
3 1 2015-02-25 03:00:00 2.240893
4 1 2015-02-25 12:00:00 1.867558
5 2 2015-02-25 21:00:00 -0.977278
6 2 2015-02-26 06:00:00 0.950088
11 3 2015-02-28 03:00:00 1.454274
12 3 2015-02-28 12:00:00 0.761038
13 3 2015-02-28 21:00:00 0.121675
Run Code Online (Sandbox Code Playgroud)