5000 万行的 Pandas groupby+transform 需要 3 小时

Vip*_*pin 5 python group-by transform pandas

我正在使用熊猫模块。在我的 DataFrame 3 字段中是帐户、月份和工资。

    account month              Salary
    1       201501             10000
    2       201506             20000
    2       201506             20000
    3       201508             30000
    3       201508             30000
    3       201506             10000
    3       201506             10000
    3       201506             10000
    3       201506             10000
Run Code Online (Sandbox Code Playgroud)

我在 Account 和 Month 上进行 groupby 并将工资转换为它所属组的工资百分比。

MyDataFrame['salary'] = MyDataFrame.groupby(['account'], ['month'])['salary'].transform(lambda x: x/x.sum())
Run Code Online (Sandbox Code Playgroud)

现在 MyDataFrame 变成如下表

    account month              Salary
    1       201501             1
    2       201506             .5
    2       201506             .5
    3       201508             .5
    3       201508             .5
    3       201506             .25
    3       201506             .25
    3       201506             .25
    3       201506             .25
Run Code Online (Sandbox Code Playgroud)

问题是:操作 5000 万这样的行需要 3 个小时。我单独执行了 groupyby,它的速度很快,只需要 5 秒。我认为这里的转换需要很长时间。有什么办法可以提高性能吗?

更新:为了提供更清晰的添加示例,某些帐户持有人在 6 月份收到了 2000 美元,在 7 月份收到了 8000 美元,因此他的比例在 6 月份变为 0.2,在 7 月份变为 0.8。我的目的是计算这个比例。

Jef*_*eff 4

那么你需要更明确地展示你在做什么。这是 pandas 所擅长的。

@Uri Goren 的注释。这是一个常量记忆过程,一次只有 1 个组在内存中。这将随着组的数量线性扩展。排序也是不必要的。

In [20]: np.random.seed(1234)

In [21]: ngroups = 1000

In [22]: nrows = 50000000

In [23]: dates = pd.date_range('20000101',freq='MS',periods=ngroups)

In [24]:  df = DataFrame({'account' : np.random.randint(0,ngroups,size=nrows),
                 'date' : dates.take(np.random.randint(0,ngroups,size=nrows)),
                 'values' : np.random.randn(nrows) })


In [25]: 

In [25]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 50000000 entries, 0 to 49999999
Data columns (total 3 columns):
account    int64
date       datetime64[ns]
values     float64
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 1.5 GB

In [26]: df.head()
Out[26]: 
   account       date    values
0      815 2048-02-01 -0.412587
1      723 2023-01-01 -0.098131
2      294 2020-11-01 -2.899752
3       53 2058-02-01 -0.469925
4      204 2080-11-01  1.389950

In [27]: %timeit df.groupby(['account','date']).sum()
1 loops, best of 3: 8.08 s per loop
Run Code Online (Sandbox Code Playgroud)

如果你想转换输出,那么这样做

In [37]: g = df.groupby(['account','date'])['values']

In [38]: result = 100*df['values']/g.transform('sum')

In [41]: result.head()
Out[41]: 
0     4.688957
1    -2.340621
2   -80.042089
3   -13.813078
4   -70.857014
dtype: float64

In [43]: len(result)
Out[43]: 50000000

In [42]: %timeit 100*df['values']/g.transform('sum')
1 loops, best of 3: 30.9 s per loop
Run Code Online (Sandbox Code Playgroud)

需要更长一点的时间。但这应该是一个相对较快的操作。