小编pra*_*ora的帖子

我有一个带有 30 条记录的 RDD（键/值对：键是时间戳，值是 JPEG 字节数组）
并且我正在运行 30 个执行程序。我想将此 RDD 重新分区为 30 个分区，以便每个分区获得一条记录并分配给一个执行程序。

当我使用rdd.repartition(30)它时，将我的 rdd 重新分区为 30 个分区，但有些分区获得 2 条记录，有些获得 1 条记录，有些则没有获得任何记录。

在 Spark 中有什么方法可以将我的记录均匀地分布到所有分区。

5
推荐指数

1
解决办法

6612
查看次数

小编pra_ora的帖子