我有一个属于 2 Pig 关系的 Pig 脚本,比如说 A 和 B。A 是一个小关系,B 是一个大关系。我的 UDF 应该将所有 A 加载到每台机器上的内存中,然后在处理 B 时使用它。目前我是这样做的。
A = foreach smallRelation Generate ...
B = foreach largeRelation Generate propertyOfB;
store A into 'templocation';
C = foreach B Generate CustomUdf(propertyOfB);
Run Code Online (Sandbox Code Playgroud)
然后我让每台机器从“templocation”加载到 A.This 工作,但我有两个问题。
有谁知道应该怎么做?
apache-pig ×1