在对另一列进行分组之后，查找一列值的最大出现

Question

在对另一列进行分组之后，查找一列值的最大出现

Sat*_*tya 3 python group-by aggregate max pandas

我有一个熊猫数据框：

        id                city
 000.tushar@gmail.com   Bangalore
 00078r@gmail.com       Mumbai
0007ayan@gmail.com      Jamshedpur
0007ayan@gmail.com      Jamshedpur
000.tushar@gmail.com    Bangalore
  00078r@gmail.com      Mumbai
  00078r@gmail.com      Vijayawada
  00078r@gmail.com      Vijayawada
  00078r@gmail.com      Vijayawada

Run Code Online (Sandbox Code Playgroud)

我想以id-wise查找出现的最大城市名称。因此，对于给定的ID，我可以说-这是他最喜欢的城市：

         id             city
000.tushar@gmail.com   Bangalore
00078r@gmail.com       Vijayawada
0007ayan@gmail.com     Jamshedpur

Run Code Online (Sandbox Code Playgroud)

使用groupby id和city可以得到：

         id                   city       count
0  000.tushar@gmail.com       Bangalore    2
1      00078r@gmail.com        Mumbai      2
2      00078r@gmail.com      Vijayawada    3
3    0007ayan@gmail.com      Jamshedpur    2

Run Code Online (Sandbox Code Playgroud)

如何进一步进行？我相信一些按组申请可以做到这一点，但不知道到底是什么会成功。所以请提出建议。

如果两个或三个城市的ID数相同，则可以返回其中任何一个城市。

Answer 1

jez*_*ael 5

您可以groupby使用size和尝试两次idxmax。输出是元组列表（因为MultiIndex），因此请使用apply：

df = df.groupby(['id','city']).size().groupby(level=0).idxmax()
                              .apply(lambda x: x[1]).reset_index(name='city')

Run Code Online (Sandbox Code Playgroud)

另一个解决方案：

s = df.groupby(['id','city']).size()
df = s.loc[s.groupby(level=0).idxmax()].reset_index().drop(0,axis=1)

Run Code Online (Sandbox Code Playgroud)

要么：

df = df.groupby(['id'])['city'].apply(lambda x: x.value_counts().index[0]).reset_index()

Run Code Online (Sandbox Code Playgroud)

print (df)
                     id        city
0  000.tushar@gmail.com   Bangalore
1      00078r@gmail.com  Vijayawada
2    0007ayan@gmail.com  Jamshedpur

Run Code Online (Sandbox Code Playgroud)

Answer 2

smc*_*mci 5

推荐的方法是groupby('id').apply(your_custom_function)，其中 your_custom_function 按“城市”聚合并返回最大值（或者如您提到的，多个最大值）。我们甚至不必使用.agg('city')

import pandas as pd

def get_top_city(g):
    return g['city'].value_counts().idxmax()    

df = pd.DataFrame.from_records(
         [('000.tushar@gmail.com', 'Bangalore'), ('00078r@gmail.com',     'Mumbai'),
         ('0007ayan@gmail.com',   'Jamshedpur'),('0007ayan@gmail.com',   'Jamshedpur'),
         ('000.tushar@gmail.com', 'Bangalore'), ('00078r@gmail.com',     'Mumbai'),
         ('00078r@gmail.com',     'Vijayawada'),('00078r@gmail.com',     'Vijayawada'),
         ('00078r@gmail.com',     'Vijayawada')],
         columns=['id','city'],
         index=None
     )

topdf = df.groupby('id').apply(get_top_city)

id
000.tushar@gmail.com     Bangalore
00078r@gmail.com        Vijayawada
0007ayan@gmail.com      Jamshedpur

# or topdf.items()/iteritems() if you want as list of (id,city) tuples

[('000.tushar@gmail.com', 'Bangalore'), ('00078r@gmail.com', 'Vijayawada'), ('0007ayan@gmail.com', 'Jamshedpur')]

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，10 月前
查看次数：	1847 次
最近记录：	7 年，11 月前