在pyspark RDD上显示分区

jav*_*dba 11 python apache-spark pyspark

pyspark RDD文档

http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD

没有显示任何显示RDD分区信息的方法.

有没有办法在不执行额外步骤的情况下获取该信息,例如:

myrdd.mapPartitions(lambda x: iter[1]).sum()
Run Code Online (Sandbox Code Playgroud)

以上确实有效..但似乎是额外的努力.

jav*_*dba 36

我错过了:非常简单:

rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)

不习惯java-ish 得到 FooMethod()了;)

更新:添加来自@dnlbrky的评论:

dataFrame.rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)

  • DataFrames是在Spark 1.3中引入的,通常用于代替RDD.对于那些阅读此答案并尝试获取DataFrame分区数的人,您必须先将其转换为RDD:`myDataFrame.rdd.getNumPartitions()`. (7认同)