相关疑难解决方法(0)

Apache Spark:获取每个分区的记录数

我想查看如何获取有关每个分区的信息,例如总数.当使用部署模式作为纱线群集提交Spark作业以便在控制台上记录或打印时,驱动程序端的每个分区中的记录数.

hadoop scala partitioning apache-spark apache-spark-sql

13
推荐指数
4
解决办法
9335
查看次数

计算每个pyspark RDD分区中的元素数

我正在寻找与这个问题相当的Pyspark:如何获得分区中的元素数量?.

具体来说,我想以编程方式计算pyspark RDD或dataframe的每个分区中的元素数量(我知道这些信息在Spark Web UI中可用).

此尝试导致"AttributeError:'NoneType'对象没有属性'_jvm'":

df.foreachPartition(lambda iter: sum(1 for _ in iter))

我不想将迭代器的内容收集到内存中.

partitioning pyspark

5
推荐指数
1
解决办法
4472
查看次数