Spark Scala println是否需要collect（）？

Question

Spark Scala println是否需要collect（）？

刚刚开始使用Spark和Scala。我们已经在我们的dev cloudera hadoop集群上安装了Spark 2，而我正在使用spark2-shell。我正在读一本书以学习一些基础知识。它的示例显示println（foo）在不执行收集的情况下工作，但这对我不起作用：

scala> val numbers = sc.parallelize(10 to 50 by 10)
numbers: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[9] at parallelize at <console>:24

scala> numbers.collect().foreach(println)
10                                                                              
20
30
40
50

scala> numbers.foreach(x => println(x))

scala>

Run Code Online (Sandbox Code Playgroud)

如您所见，除非我执行collect（），否则什么都不会打印。

这是怎么回事，这本书是错的，还是我的spark / scala / config有点有趣？

版本信息：

Spark version 2.0.0.cloudera2
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_111)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Har*_*ebe 5

这是您遇到的正确行为，传递给的代码numbers.foreach将在不同的节点上执行，但是不会收集输出并将其返回给驱动程序。

归档时间：	8 年，8 月前
查看次数：	1488 次
最近记录：	8 年，8 月前