小编pra*_*ora的帖子

Spark:如何在所有分区中均匀分布我的记录

我有一个带有 30 条记录的 RDD(键/值对:键是时间戳,值是 JPEG 字节数组)
并且我正在运行 30 个执行程序。我想将此 RDD 重新分区为 30 个分区,以便每个分区获得一条记录并分配给一个执行程序。

当我使用rdd.repartition(30)它时,将我的 rdd 重新分区为 30 个分区,但有些分区获得 2 条记录,有些获得 1 条记录,有些则没有获得任何记录。

在 Spark 中有什么方法可以将我的记录均匀地分布到所有分区。

apache-spark

5
推荐指数
1
解决办法
6612
查看次数

标签 统计

apache-spark ×1