这三个Apache Spark转换很容易混淆.有什么方法可以确定何时使用哪一个以及何时避免使用哪一个?
我认为官方指南解释得很好.
我将突出显示差异(你有类型的RDD (K, V)):
groupByKeyK),你有两个选择:reduceByKey或者aggregateByKey(reduceByKey有点特别aggregateByKey)
(V, V)并返回的操作V,那么组的所有值都可以减少到相同类型的单个值,然后使用reduceByKey.因此,您将拥有相同(K, V)类型的RDD .aggregateByKey.将值减少到另一种类型时会发生这种情况.所以你会得到(K, V2)结果.| 归档时间: |
|
| 查看次数: |
1625 次 |
| 最近记录: |