在PIg中查找重复项

Question

在PIg中查找重复项

如果我有一个表有重复行的id,

我可以使用Hive和下面的查询找到它

create table dupe as select * from table1 group by id having count(*) > 1;

Run Code Online (Sandbox Code Playgroud)

我们可以使用Pig执行相同的功能吗？

如果有,有人可以帮助我吗？

Answer 1

zsx*_*ing 5

以下代码可以帮助您:

r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;

Run Code Online (Sandbox Code Playgroud)

但是,订单不是保留的.

归档时间：	12 年，3 月前
查看次数：	3169 次
最近记录：	12 年，3 月前