根据列中的最大值过滤pandas Dataframe

wrc*_*obb 6 python numpy pandas

我在索引中有一个重复值的DataFrame.我想过滤这个数据集只显示每个索引的一个实例,方法是选择索引中具有不同列中最大值的行.例如,我的DataFrame看起来像这样:

DF:

Product ID     Store     Sales
    1            A         50
    1            B        200
    1            C         20
    2            A        400
    2            B         10
    3            A        200
    4            A         50
    4            B        100
    4            C        500
Run Code Online (Sandbox Code Playgroud)

我想将此数据过滤到此:

DF2:

Product ID     Store     Sales
    1            B        200
    2            A        400
    3            A        200
    4            C        500
Run Code Online (Sandbox Code Playgroud)

关于如何在熊猫中最好地解决这个问题的任何想法?

非常感谢你花时间陪伴 -

EdC*_*ica 10

您可以执行groupby"产品ID",然后应用于idxmax"销售"列.这将创建一个具有最高值索引的系列.然后我们可以使用索引值来索引原始数据帧iloc

In [201]:

df.iloc[df.groupby('Product ID')['Sales'].agg(pd.Series.idxmax)]
Out[201]:
   Product_ID Store  Sales
1           1     B    200
3           2     A    400
5           3     A    200
8           4     C    500
Run Code Online (Sandbox Code Playgroud)