小编Car*_* DM的帖子

在 spark 中优先分区/任务执行

我有一份带有倾斜数据的火花工作。数据需要基于列进行分区。我想告诉 spark 首先开始处理最大的分区,以便我可以更有效地使用可用资源。

推理如下:我总共有 10000 个分区,其中 9999 个分区只需 1 分钟处理,1 个分区需要 10 分钟处理。如果我先得到重分区,我可以在 11 分钟内完成这项工作,如果我最后得到它需要 18 分钟。

有没有办法确定分区的优先级?你能理解这个吗?

我在电子表格上勾画了这两个场景在此处输入图片说明

partitioning distribution apache-spark pyspark

6
推荐指数
2
解决办法
898
查看次数

从 pyspark 数据框中检索分区/批次

我需要从一个大的 pyspark 数据框中收集分区/批次,以便我可以迭代地将它们输入到神经网络中

我的想法是 1) 对数据进行分区,2) 迭代地收集每个分区,3) 将收集的分区转换为 toPandas()

我有点困惑着类似的方法foreachPartition,并mapPartitions因为我不能迭代他们。任何的想法?

dataframe apache-spark pyspark

3
推荐指数
1
解决办法
2643
查看次数