将 pandas GroupBy 中的列值聚合为字典

Question

将 pandas GroupBy 中的列值聚合为字典

use*_*235 5 python dictionary dataframe pandas pandas-groupby

这是我之前面试的时候也问过的问题。

我们的输入数据具有以下列：

语言、产品 ID、货架 ID、排名

例如，输入将具有以下格式

English, 742005, 4560, 10.2 
English, 6000075389352, 4560, 49
French, 899883993, 4560, 32
French, 731317391, 7868, 81

Run Code Online (Sandbox Code Playgroud)

我们希望对语言、货架 ID 列进行“分组”操作，并根据“排名”属性上的 sort desc 对产品列表进行排序，这将导致输出具有以下格式：

语言、shelf_id、{product_id:rank1、product_id:rank2 ....}

对于每条记录。

对于给定的输入，输出如下：

English, 4560, {6000075389352:49, 742005:10.2}
French, 4560, 899883993:32
French, 7868, 731317391:81

Run Code Online (Sandbox Code Playgroud)

我通过使用键（通过组合语言和货架 id 创建）创建一个字典并插入每个键的产品 id 和排名来解决这个问题。

我的方法有效，但看起来有一种更简单的方法可以使用 python pandas 库来实现。我读过一些参考资料，但我仍然不确定是否有比我所做的更好的方法（通过使用语言、书架 ID 和具有该密钥的字典创建密钥来解决问题）

任何帮助将不胜感激。

Answer 1

cs9*_*s95 7

设置

df = pd.read_csv('file.csv', header=None)  
df.columns = ['Lang', 'product_id', 'shelf_id', 'rank_id']    

df
      Lang     product_id  shelf_id  rank_id
0  English         742005      4560     10.2
1  English  6000075389352      4560     49.0
2   French      899883993      4560     32.0
3   French      731317391      7868     81.0

Run Code Online (Sandbox Code Playgroud)

您可以使用和df.groupby进行分组。然后使用来获取的字典：Langshelf_iddf.apply{productid : rankid}

(df.groupby(['Lang', 'shelf_id'], as_index=False)
   .apply(lambda x: dict(zip(x['product_id'], x['rank_id'])))
   .reset_index(name='mapping'))

      Lang  shelf_id                              mapping
0  English      4560  {6000075389352: 49.0, 742005: 10.2}
1   French      4560                    {899883993: 32.0}
2   French      7868                    {731317391: 81.0}

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，10 月前
查看次数：	5364 次
最近记录：	6 年，11 月前