相关疑难解决方法(0)

我想查看如何获取有关每个分区的信息,例如总数.当使用部署模式作为纱线群集提交Spark作业以便在控制台上记录或打印时,驱动程序端的每个分区中的记录数.

13
推荐指数

4
解决办法

9335
查看次数

我正在寻找与这个问题相当的Pyspark:如何获得分区中的元素数量？.

具体来说,我想以编程方式计算pyspark RDD或dataframe的每个分区中的元素数量(我知道这些信息在Spark Web UI中可用).

此尝试导致"AttributeError:'NoneType'对象没有属性'_jvm'":

df.foreachPartition(lambda iter: sum(1 for _ in iter))

我不想将迭代器的内容收集到内存中.

5
推荐指数

1
解决办法

4472
查看次数