小编Χρή*_*ιος的帖子

Spark CollectAsMap

我想知道collectAsMap在Spark中是如何工作的.更具体地说,我想知道所有分区的数据聚合将在何处发生?聚合发生在主人或工人中.在第一种情况下,每个工作人员在master上发送数据,当master从每个worker收集数据时,master将汇总结果.在第二种情况下,工人负责汇总结果(在他们之间交换数据之后),之后结果将被发送给主人.

我必须找到一种方法,以便主人能够分别从每个分区收集数据,而无需工人交换数据.

distributed-computing worker apache-spark

10
推荐指数
1
解决办法
1万
查看次数