Spark join 不随机播放

Question

我正在尝试优化我的 Spark 应用程序工作。

是否可以？如果类似的功能不存在，我想实现类似 joinperpartition 的功能。

Answer 1

重新分区仅优化连接，但我需要的是不进行随机连接的连接

这不是真的。重新分区不仅“优化”连接。重新分区将 a 绑定Partitioner到 RDD，这是映射侧连接的关键组件。

我已确保必须进行连接操作的键分布在同一分区内

Spark一定知道这一点。使用适当的 api 构建您的 DataFrame，以便它们具有相同的Partitioner，spark 将处理其余的事情。

Spark join *不*随机播放