据我所知,当Spark执行广播连接时,它首先将最小的(广播)RDD收集到驱动程序以从中创建广播变量,然后才将其上传到每个目标节点。
有时,如果广播 RDD > Spark.driver.memory,会导致驱动程序内存流出。
问题:为什么它会以这种方式工作?仅在目标节点之间混洗广播数据会更有效,因为混洗的数据量是相同的,但我们可以避免驱动程序溢出。
示例:假设您有 3 个节点,每个节点上要广播 1 GB 的数据,每个节点的吞吐量为 1 GB/s。
Spark 方法 - 每个节点必须向驱动程序上传其数据片段 (1gb) 并下载广播变量 (3 * 1g = 3gb),因此每个节点总共应传输 4 GB,并且需要 4 秒。
随机播放方法 - 一个节点必须将 1GB 上传到其他 2 个节点,并从这些节点下载 1GB。同样,总量为 4 GB,需要 4 秒。
| 归档时间: |
|
| 查看次数: |
3964 次 |
| 最近记录: |