我想查看如何获取有关每个分区的信息,例如总数.当使用部署模式作为纱线群集提交Spark作业以便在控制台上记录或打印时,驱动程序端的每个分区中的记录数.
我正在寻找与这个问题相当的Pyspark:如何获得分区中的元素数量?.
具体来说,我想以编程方式计算pyspark RDD或dataframe的每个分区中的元素数量(我知道这些信息在Spark Web UI中可用).
此尝试导致"AttributeError:'NoneType'对象没有属性'_jvm'":
df.foreachPartition(lambda iter: sum(1 for _ in iter))
我不想将迭代器的内容收集到内存中.