flink reduceGroup中的迭代器行为

Question

flink reduceGroup中的迭代器行为

我正在创建一个应该处理大量数据的系统,我需要了解reduce group运算符的工作原理

我有一个数据集,我在其中应用groupby,然后是reduceGroup如何传递给reduceGroup函数的迭代器表现如何？它是一个懒惰的迭代器,在请求它们时加载数据,还是一个在创建内存时准备内存中所有数据的渴望它？

我在flink 0.9 milestone1中使用scala api

Answer 1

Flink 使用排序运算符对 groupReduce 执行分组。排序运算符接收一定的内存预算用于排序。只要数据符合此预算，排序就会在内存中进行。否则，排序将成为外部合并排序并溢出到磁盘。Flink 读取排序后的数据流并“即时”应用 groupReduce 函数。在应用该函数之前，组的数据并未完全读取到内存中。因此，如果用户函数本身不具体化组记录，则可以处理非常大的组。

归档时间：	10 年，9 月前
查看次数：	568 次
最近记录：	10 年，9 月前