小编Rav*_*jan的帖子

如何确保RDD的每个分区都有一些数据

我的RDD为36个元素.我有一个3个节点的集群,每个节点有4个核心.我已经将RDD重新划分为36个部分,以便每个分区可能有一个要处理的元素,但是整个36个元素被分区,这样只有4个部分每个有9个元素,其余的部分都是空的,因此无需处理和服务器资源未得到充分利用.

如何重新分区数据以确保每个部分都有一些数据需要处理?如何确保每个零件都有3个要处理的元素?

apache-spark

2
推荐指数
1
解决办法
646
查看次数

标签 统计

apache-spark ×1