Spark的累加器使我感到困惑。

Question

Spark的累加器使我感到困惑。

我正在练习Apache Spark，但遇到以下问题。

val accum = sc.accumulator( 0, "My Accumulator.")
println (accum)  // print out: 0

sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum += x ) 
// sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum = accum + x )
println( accum.value ) // print out: 15

Run Code Online (Sandbox Code Playgroud)

这行代码sc.parallelize( Array(1, 2, 3, 4, 5) ).foreach( x => accum += x )运行良好，但是下面注释掉的代码行不通。区别在于：

x => accum += x

Run Code Online (Sandbox Code Playgroud)

和

x => accum = accum + x

Run Code Online (Sandbox Code Playgroud)

为什么第二个不起作用？

Answer 1

zer*_*323 5

无效的三个原因：

accum 是一个值，因此无法重新分配
Accumulable类，它是Accumulator仅提供+=方法而不提供方法的基类+
从worker的角度来看，累加器是只写的，因此您无法读取操作内的值。从理论上讲，该+方法可以accum进行适当的修改，但会造成混乱。

归档时间：	10 年，1 月前
查看次数：	306 次
最近记录：	10 年，1 月前