我想知道collectAsMap在Spark中是如何工作的.更具体地说,我想知道所有分区的数据聚合将在何处发生?聚合发生在主人或工人中.在第一种情况下,每个工作人员在master上发送数据,当master从每个worker收集数据时,master将汇总结果.在第二种情况下,工人负责汇总结果(在他们之间交换数据之后),之后结果将被发送给主人.
我必须找到一种方法,以便主人能够分别从每个分区收集数据,而无需工人交换数据.
distributed-computing worker apache-spark
apache-spark ×1
distributed-computing ×1
worker ×1