我有一个带有 30 条记录的 RDD(键/值对:键是时间戳,值是 JPEG 字节数组) 并且我正在运行 30 个执行程序。我想将此 RDD 重新分区为 30 个分区,以便每个分区获得一条记录并分配给一个执行程序。
当我使用rdd.repartition(30)它时,将我的 rdd 重新分区为 30 个分区,但有些分区获得 2 条记录,有些获得 1 条记录,有些则没有获得任何记录。
rdd.repartition(30)
在 Spark 中有什么方法可以将我的记录均匀地分布到所有分区。
apache-spark
apache-spark ×1