连接和coGroup转换可以读取2个输入数据集并输出一个("Y"通量)(如果我错了,请纠正我).
我想处理和更新2个数据集.为此,我计划使用2次coGroup转换.
但是,出于性能目的,这两种转换都可以在一个转换中完成("H"通量)吗?
此外,随着数据集的更新,我想迭代它们.如果目前无法实现,您是否计划在未来支持这种转型?
所有Flink DataSet运算符仅支持单个输出,但运算符的输出可由两个或多个后续运算符使用.
有两种方法可以解决您的问题:
Tuple2<FirstType, SecondType>.这个解决方案看起来像:
input1--\ /--> Filter_output1
CoGroup
input2--/ \--> Filter_output2
input1 --> PartitionHash --> SortPartition -\-/-> CoGroup1 --> Output1
X
input2 --> PartitionHash --> SortPartition -/-\-> CoGroup2 --> Output2
关于迭代,请看一下Flink的迭代运算符.
| 归档时间: |
|
| 查看次数: |
863 次 |
| 最近记录: |