相关疑难解决方法(0)

Hive通过查询获取组中的前n个记录

我在hive中有下表

用户ID,用户名,用户地址,点击次数,展示次数,页面ID,页面名称

我需要通过每个页面的点击次数找到前5位用户[user-id,用户名,用户地址] [page-id,page-name]

我知道我们需要先按[page-id,page-name]进行分组,然后在每个组中我想通过[clicks,impressions] desc排序,然后只排出前5位用户[user-id,user-name,user-地址]为每个页面,但我发现很难构建查询.

我们怎么能用HIve UDF做到这一点?

hive user-defined-functions rank

22
推荐指数
3
解决办法
4万
查看次数

使用PigLatin删除重复项

我正在使用PigLatin过滤一些记录.

User1  8 NYC 
User1  9 NYC 
User1  7 LA 
User2  4 NYC
User2  3 DC 
Run Code Online (Sandbox Code Playgroud)

该脚本应删除用户的副本,并保留其中一个记录.像linux中的唯一命令.

输出应该是:

User1 8 NYC 
User2 4 NYC
Run Code Online (Sandbox Code Playgroud)

有什么建议?

apache-pig

9
推荐指数
1
解决办法
2万
查看次数

Hive中的偏移功能

如何在Hive中实现与SQL的"偏移"相同的功能?

__CODE__

谢谢!

hive hiveql

9
推荐指数
1
解决办法
7659
查看次数

标签 统计

hive ×2

apache-pig ×1

hiveql ×1

rank ×1

user-defined-functions ×1