避免对熊猫的每一行进行迭代以进行自定义聚合

Question

避免对熊猫的每一行进行迭代以进行自定义聚合

Mat*_*sna 3 python dataframe pandas pandas-groupby

假设我有一个带有两列的pandas DataFrame：salary和food_perc（您在食品上花费的薪水百分比）。每行对应一个不同的人。

import pandas as pd
import numpy as np

# Set seed
np.random.seed(1)

# Create dataframe
df = pd.DataFrame({'salary': np.round(np.random.uniform(10000, 100000, 100), 2),
                   'food_perc': np.round(np.random.uniform(0.1, 0.9, 100), 2)})

Run Code Online (Sandbox Code Playgroud)

我想要一个新的列，称为food_compare每个人在哪里，我要看看他们food_perc与收入相似（+/- 10％）的人的比较。

由于每个人的+/- 10％同类群组会有所不同，因此，我看不出一种方法来避免遍历每一行并每次都创建同类群组，如下所示。

for i in df.index:

    # Isolate the cohort
    df_sub = df[(df.loc[:, 'salary'] * 0.9 < df.loc[i, 'salary']) &
                (df.loc[:, 'salary'] * 1.1 > df.loc[i, 'salary'])]

    # Make the comparison
    df.loc[i, 'food_compare'] = np.divide(df.loc[i, 'food_perc'],
                                          np.mean(df_sub['food_perc']))

Run Code Online (Sandbox Code Playgroud)

每次迭代都为数据帧设置子集实际上不是可扩展的解决方案。不幸的是，我无法针对正在解决的问题抢先创建静态垃圾箱（例如，$ 10,000- $ 20,000，$ 20,001- $ 30,000等）。

.groupby当您没有离散键时，是否可以执行某种方式？否则，除了可能salary预先对行进行排序并修改子集步骤之外，我不知道该怎么做，以便在构建同类群组时不会搜索整个数据框。谢谢！

Answer 1

Nat*_*ivo 5

要获得每个对等组的计数，可以使用以下方法：

data['sal_peer_group_count'] = \
     data['salary'].apply(lambda x: len(data.loc[(data['salary']>.9*x) & \
                                       (data['salary']<1.1*x)]))

Run Code Online (Sandbox Code Playgroud)

获得同龄人的平均值 sal_perc

data['peer_group_food_perc_mean'] = \
     data['salary'].apply(lambda x: data.loc[(data['salary'] >.9*x) & \
                                             (data['salary'] < 1.1*x), 'food_perc'].mean())

Run Code Online (Sandbox Code Playgroud)

请记住，如果您有任何salary等于零的项目，并且希望它们属于同一组，则需要将语句修改为：

data['peer_group_food_perc_mean'] = \
     data['salary'].apply(lambda x: data.loc[(data['salary'] >.9*x) & \
                                             (data['salary'] < 1.1*x) \
                                              if x != 0 else \
                                              (data['salary'] == 0), 'food_perc'].mean())

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，10 月前
查看次数：	82 次
最近记录：	6 年，6 月前