我有两个数据集(1M唯一字符串)和(1B唯一字符串); 我想知道两个集合中有多少个字符串,并想知道使用Apache Pig获取数字的最有效方法是什么?
您可以先加入以下文件:
A = LOAD '/joindata1.txt' AS (a1:int,a2:int,a3:int);
B = LOAD '/joindata2.txt' AS (b1:int,b2:int);
X = JOIN A BY a1, B BY b1;
Run Code Online (Sandbox Code Playgroud)
然后你可以计算行数:
grouped_records = GROUP X ALL;
count_records = FOREACH grouped_records GENERATE COUNT(A.a1);
Run Code Online (Sandbox Code Playgroud)
它有助于你解决问题......
| 归档时间: |
|
| 查看次数: |
754 次 |
| 最近记录: |