使用Apache Hadoop Pig内部连接两个数据集

Lin*_* Ma 3 hadoop apache-pig

我有两个数据集(1M唯一字符串)和(1B唯一字符串); 我想知道两个集合中有多少个字符串,并想知道使用Apache Pig获取数字的最有效方法是什么?

Ama*_*man 5

您可以先加入以下文件:

A = LOAD '/joindata1.txt' AS (a1:int,a2:int,a3:int);
B = LOAD '/joindata2.txt' AS (b1:int,b2:int);
X = JOIN A BY a1, B BY b1;  
Run Code Online (Sandbox Code Playgroud)

然后你可以计算行数:

grouped_records = GROUP X ALL;
count_records = FOREACH grouped_records GENERATE COUNT(A.a1);
Run Code Online (Sandbox Code Playgroud)

它有助于你解决问题......