将 pandas GroupBy 中的列值聚合为字典

use*_*235 5 python dictionary dataframe pandas pandas-groupby

这是我之前面试的时候也问过的问题。

我们的输入数据具有以下列:

语言、产品 ID、货架 ID、排名

例如,输入将具有以下格式

English, 742005, 4560, 10.2 
English, 6000075389352, 4560, 49
French, 899883993, 4560, 32
French, 731317391, 7868, 81
Run Code Online (Sandbox Code Playgroud)

我们希望对语言、货架 ID 列进行“分组”操作,并根据“排名”属性上的 sort desc 对产品列表进行排序,这将导致输出具有以下格式:

语言、shelf_id、{product_id:rank1、product_id:rank2 ....}

对于每条记录。

对于给定的输入,输出如下:

English, 4560, {6000075389352:49, 742005:10.2}
French, 4560, 899883993:32
French, 7868, 731317391:81
Run Code Online (Sandbox Code Playgroud)

我通过使用键(通过组合语言和货架 id 创建)创建一个字典并插入每个键的产品 id 和排名来解决这个问题。

我的方法有效,但看起来有一种更简单的方法可以使用 python pandas 库来实现。我读过一些参考资料,但我仍然不确定是否有比我所做的更好的方法(通过使用语言、书架 ID 和具有该密钥的字典创建密钥来解决问题)

任何帮助将不胜感激。

cs9*_*s95 7

设置

df = pd.read_csv('file.csv', header=None)  
df.columns = ['Lang', 'product_id', 'shelf_id', 'rank_id']    

df
      Lang     product_id  shelf_id  rank_id
0  English         742005      4560     10.2
1  English  6000075389352      4560     49.0
2   French      899883993      4560     32.0
3   French      731317391      7868     81.0
Run Code Online (Sandbox Code Playgroud)

您可以使用和df.groupby进行分组。然后使用来获取 的字典:Langshelf_iddf.apply{productid : rankid}

(df.groupby(['Lang', 'shelf_id'], as_index=False)
   .apply(lambda x: dict(zip(x['product_id'], x['rank_id'])))
   .reset_index(name='mapping'))

      Lang  shelf_id                              mapping
0  English      4560  {6000075389352: 49.0, 742005: 10.2}
1   French      4560                    {899883993: 32.0}
2   French      7868                    {731317391: 81.0}
Run Code Online (Sandbox Code Playgroud)