小编K.T*_*Tom的帖子

Spark 数据帧的分区数?

我有一个 Spark 数据框(Spark 2.3),它存储一个具有零记录的 sql。当我尝试计算分区数量时,它没有显示任何结果,并尝试了各种函数,例如 df.rdd.getNumPartitions / df.rdd.getNumPartitions()/ df.rdd.length / df.rdd.partitions.size。

如何从具有零或数百万条记录的 Spark 数据帧中获取分区数?

代码:

empsql = 'Select * From Employee' ## In this sql it has zero records
df = spark.sql(empsql) ##Spark is configured
df.rdd.getNumPartitions

#Using df.rdd.partitions.size got error as: AttributeError: 'RDD' object has no attribute 'partitions'
Run Code Online (Sandbox Code Playgroud)

dataframe apache-spark rdd apache-spark-sql pyspark

2
推荐指数
1
解决办法
7107
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

dataframe ×1

pyspark ×1

rdd ×1