我正在创建一个应该处理大量数据的系统,我需要了解reduce group运算符的工作原理
我有一个数据集,我在其中应用groupby,然后是reduceGroup如何传递给reduceGroup函数的迭代器表现如何?它是一个懒惰的迭代器,在请求它们时加载数据,还是一个在创建内存时准备内存中所有数据的渴望它?
我在flink 0.9 milestone1中使用scala api
hadoop scala apache-flink
apache-flink ×1
hadoop ×1
scala ×1