我在hive中有下表
用户ID,用户名,用户地址,点击次数,展示次数,页面ID,页面名称
我需要通过每个页面的点击次数找到前5位用户[user-id,用户名,用户地址] [page-id,page-name]
我知道我们需要先按[page-id,page-name]进行分组,然后在每个组中我想通过[clicks,impressions] desc排序,然后只排出前5位用户[user-id,user-name,user-地址]为每个页面,但我发现很难构建查询.
我们怎么能用HIve UDF做到这一点?
我正在使用PigLatin过滤一些记录.
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
Run Code Online (Sandbox Code Playgroud)
该脚本应删除用户的副本,并保留其中一个记录.像linux中的唯一命令.
输出应该是:
User1 8 NYC
User2 4 NYC
Run Code Online (Sandbox Code Playgroud)
有什么建议?