我有一个pandas DataFrame,它根据用户会话期间的"点击次数"详细说明了在线活动.有多达50,000个唯一身份用户,数据框有大约150万个样本.显然大多数用户都有多条记录.
这四列是唯一的用户ID,用户开始服务的日期"注册",用户使用服务的日期"会话",总点击次数.
数据框的组织如下:
User_ID Registration Session clicks
2349876 2012-02-22 2014-04-24 2
1987293 2011-02-01 2013-05-03 1
2234214 2012-07-22 2014-01-22 7
9874452 2010-12-22 2014-08-22 2
...
Run Code Online (Sandbox Code Playgroud)
(上面还有一个从0开始的索引,但可以将其设置User_ID为索引.)
我希望汇总自注册日期以来用户的总点击次数.数据帧(或pandas Series对象)将列出User_ID和"Total_Number_Clicks".
User_ID Total_Clicks
2349876 722
1987293 341
2234214 220
9874452 1405
...
Run Code Online (Sandbox Code Playgroud)
大熊猫如何做到这一点?这是完成的.agg()吗?每个都User_ID需要单独汇总.
由于有150万条记录,这是否有规模?