Flink:如何在一次转换中处理和输出两个数据集？

Question

Flink:如何在一次转换中处理和输出两个数据集？

Ghi*_*ier 8 apache-flink

连接和coGroup转换可以读取2个输入数据集并输出一个("Y"通量)(如果我错了,请纠正我).

我想处理和更新2个数据集.为此,我计划使用2次coGroup转换.

但是,出于性能目的,这两种转换都可以在一个转换中完成("H"通量)吗？

此外,随着数据集的更新,我想迭代它们.如果目前无法实现,您是否计划在未来支持这种转型？

Answer 1

Fab*_*ske 7

所有Flink DataSet运算符仅支持单个输出,但运算符的输出可由两个或多个后续运算符使用.

有两种方法可以解决您的问题:

使用单个CoGroup计算两个输出的结果,并添加两个过滤器,用于过滤掉两个输出之一的记录.如果两个输出都有不同的数据类型,则需要计算类似的返回值Tuple2<FirstType, SecondType>.这个解决方案看起来像:

    input1--\         /--> Filter_output1 
              CoGroup 
    input2--/         \--> Filter_output2

对分组键上的CoGroup输入进行分区和排序,并调用两个单独的CoGroup.每个CoGroup计算一个输出.通过在CoGroup之前对数据进行排序,可以重用分区和排序.重要的是,所有运营商必须使用相同的并行性!

    input1 --> PartitionHash --> SortPartition -\-/-> CoGroup1 --> Output1
                                                 X
    input2 --> PartitionHash --> SortPartition -/-\-> CoGroup2 --> Output2

关于迭代,请看一下Flink的迭代运算符.

归档时间：	10 年，9 月前
查看次数：	863 次
最近记录：	8 年，6 月前