Spark中ReduceByKey和CombineByKey之间的区别

jac*_*ack 0 scala apache-spark

在Spark中的性能方面,ReduceByKey和CombineByKey之间是否有任何区别?对此有任何帮助表示赞赏.

Kra*_*tam 6

通过键减少内部调用combineBykey.因此,任务执行的基本方式对于两者都是相同的.

CombineByKey比reduceBykey的选择是输入类型和输出类型预计不相同的时候.因此,combineByKey将有一个额外的开销,即将一种类型转换为另一种类型.

如果省略类型转换,则完全没有区别.

请点击以下链接

http://bytepadding.com/big-data/spark/reducebykey-vs-combinebykey

http://bytepadding.com/big-data/spark/groupby-vs-reducebykey

http://bytepadding.com/big-data/spark/combine-by-key-to-find-max